关于“房天下”的网页爬虫，求助

Inspirewwb · 发表于 2019-1-7 13:56:44

这个网址上面不知道为什么加入“.decode('utf8')”后一直编译不过去，不加的话是可以的，我试过写成“.decode('utf8','ignore')”，但还是不可以，如果是百度网址是可以的，请大家帮我看下需要怎么改进

源程序

复制代码

报警信息：

C:\ProgramData\Anaconda3\python.exe C:/Python/WebSpider/debug_查找网页信息.py
Traceback (most recent call last):
File "C:/Python/WebSpider/debug_查找网页信息.py", line 6, in <module>
html = response.read().decode("utf8")
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
Process finished with exit code 1

复制代码

塔利班 · 发表于 2019-1-7 14:21:32

学着用requests吧

复制代码

复制代码

塔利班 · 发表于 2019-1-7 14:24:07

审查元素也能看到编码格式

ba21 · 发表于 2019-1-7 14:29:02

本帖最后由 ba21 于 2019-1-7 15:15 编辑

方法一：使用requests模块,自带gzip解压

复制代码

>>> type(res.text)
<class 'str'>
>>> type(res.content)
<class 'bytes'>

为了能正确使用，还是得要进行编码解码

复制代码

方法二：写代码解压

复制代码

复制代码

复制代码

那皇沫路python · 发表于 2019-1-7 15:56:11

你这样当然不可以了，因为反回来的数据不全都是utf8的，所以解码也就当然不可以用这个解码了，实际在网页解析中，返回过来的编码格式不是你能控制的，而是由访问的服务器所觉定的编码格式，他用什么编码，你就要用什么解码，这个是一一对应的关系，而这个编码格式可以在网页返回来了后，查看他的编码格式

账号		自动登录	找回密码
密码			立即注册