网页代码解析出现 gbk codec errors问题

SylarPu · 发表于 2017-12-18 15:44:20

您需要登录才可以下载或查看，没有账号？立即注册

x

前段时间想参与鱼C的python挑战赛，正好这期是关于爬虫的。
点我鱼Cpython挑战赛第四季第四期

结果使用如下代码趴下来的网页，报错gbk codec errors

# -*- coding: utf-8 -*-
import requests
user_agent= 'ozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
headers = {
'user-agent': user_agent,
'accept': '* / *',
'accept - encoding': 'gzip, deflate, br',
'accept - language': 'zh - CN, zh;q = 0.9',
}
url = "https://daily.zhihu.com"
r = requests.get(url, headers=headers)
print(r.text)

复制代码

首先查看了下系统的编码

复制代码

结果为 utf-8

我又查看了爬下来的代码的编码格式：

# -*- coding: utf-8 -*-
import requests
user_agent= 'ozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
headers = {
'user-agent': user_agent,
'accept': '* / *',
'accept - encoding': 'gzip, deflate, br',
'accept - language': 'zh - CN, zh;q = 0.9',
}
url = "https://daily.zhihu.com"
r = requests.get(url, headers=headers)
import chardet
print(chardet.detect(r.content))

复制代码

结果也是utf-8，

蒙蔽的我发现哪哪都是utf-8，完全没毛病好么。。
然后我就猜测是不是文件格式问题，特意使用notepad++更改了文件格式为
utf-8

随后依然报错。。

游客，如果您要查看本帖隐藏内容请回复

希望可以帮助到同样出现这种问题的童鞋

helloxiaoc · 发表于 2017-12-18 19:01:29

楼楼好

来钓鱼 · 发表于 2017-12-18 22:10:10

SylarPu · 发表于 2017-12-19 10:27:39

helloxiaoc 发表于 2017-12-18 19:01
楼楼好

mxdxjy123 · 发表于 2017-12-20 20:07:36

谔谔谔谔谔谔谔谔

账号		自动登录	找回密码
密码			立即注册

[技术交流] 网页代码解析出现 gbk codec errors问题