爬虫爬出来的网页是空白的，求纠错

香辣烤鱿鱼 · 发表于 2019-3-26 14:40:49

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

以下代码的作用是在百度贴吧输入搜索内容然后爬取其中的网页，但保存的文件是空白，求纠错，谢谢。
注：需要填搜索内容，跟页数，如内容是“苹果”，页数是“5”

from urllib.request import Request,urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent
import re

def get_html(url):
headers = {
      "User-Agent": UserAgent().chrome
}
request = Request(url,headers = headers)
response = urlopen(request)
print(response.read().decode())
return response.read()

def save_html(filename,html_bytes):
with open(filename,"wb")as f:
      f.write(html_bytes)

def main():
content = input("请输入要下载的内容：")
num = input("请输入要下载多少页：")
base_url = "http://tieba.baidu.com/f?ie=utf-8&{}"
for pn in range(int(num)):
      args = {
         "pn": pn * 50,
         "kw": content
      }
      filename = "第" + str(pn + 1) + "页.html"
      args = urlencode(args)
      print("正在保存"+ filename)
      html_bytes = get_html(base_url.format(args))
      save_html(filename,html_bytes)

if __name__ == "__main__":
main()

天羽妖月 · 发表于 2019-3-26 15:08:42

改了个保存方式就好了

from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent
import re

def get_html(url):
headers = {
      "User-Agent": 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
request = Request(url, headers=headers)
response = urlopen(request)
# print(response.read().decode())
return response.read().decode()

def save_html(filename, html_bytes):
with open(filename, "w")as f:
      f.write(html_bytes)

def main():
content = input("请输入要下载的内容：")
num = input("请输入要下载多少页：")
base_url = "http://tieba.baidu.com/f?ie=utf-8&{}"
# url = 'http://tieba.baidu.com/f?kw=%E8%8B%B9%E6%9E%9C&ie=utf-8&pn=50'
for pn in range(int(num)):
      args = {
         "pn": pn * 50,
         "kw": content
      }
      filename = "第" + str(pn + 1) + "页.html"
      args = urlencode(args)
      print("正在保存" + filename)
      html_bytes = get_html(base_url)
      save_html(filename, html_bytes)
      # print(html_bytes.decode())
      # with open('1.html', 'w') as f:
      #    f.write(html_bytes.decode())

if __name__ == "__main__":
main()

香辣烤鱿鱼 · 发表于 2019-3-26 17:43:44

天羽妖月发表于 2019-3-26 15:08
改了个保存方式就好了

from urllib.request import Request, urlopen

报错呢。。

Traceback (most recent call last):
  File "D:/Interest/Python/学习02_爬虫_20190316/day01/test.py", line 42, in <module>
main()
  File "D:/Interest/Python/学习02_爬虫_20190316/day01/test.py", line 36, in main
save_html(filename, html_bytes)
  File "D:/Interest/Python/学习02_爬虫_20190316/day01/test.py", line 19, in save_html
f.write(html_bytes)
UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position 74816: illegal multibyte sequence

小小.甲鱼 · 发表于 2019-3-27 18:59:19

from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent
import re
def decode(data):
if isinstance(data, bytes):
try:
return data.decode('utf-8')
except Exception:
return data.decode('gb18030')
return data
def get_html(url):
headers = {
"User-Agent": UserAgent().chrome
}
request = Request(url, headers=headers)
response = urlopen(request)
return response.read()
def save_html(filename, html_bytes):
try:
html = decode(html_bytes)
except Exception as e:
print('解码失败!')
return
with open(filename, "w") as f:
f.write(html)
def main():
content = input("请输入要下载的内容：")
num = input("请输入要下载多少页：")
base_url = "http://tieba.baidu.com/f?ie=utf-8&{}"
for pn in range(int(num)):
args = {
"pn": pn * 50,
"kw": content
}
filename = "第" + str(pn + 1) + "页.html"
args = urlencode(args)
print("正在保存" + filename)
html_bytes = get_html(base_url.format(args))
save_html(filename, html_bytes)
if __name__ == "__main__":
main()

复制代码

香辣烤鱿鱼 · 发表于 2019-3-28 17:27:56

小小.甲鱼发表于 2019-3-27 18:59

谢谢，有提示编码错误，但将 “with open(filename, "w") as f:”修改为“with open(filename, "w",encoding="utf-8"”就好了

账号		自动登录	找回密码
密码			立即注册

爬虫爬出来的网页是空白的，求纠错

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块