马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
前段时间想参与鱼C的python挑战赛,正好这期是关于爬虫的。
点我鱼Cpython挑战赛 第四季第四期
结果使用如下代码趴下来的网页,报错gbk codec errors# -*- coding: utf-8 -*-
import requests
user_agent= 'ozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
headers = {
'user-agent': user_agent,
'accept': '* / *',
'accept - encoding': 'gzip, deflate, br',
'accept - language': 'zh - CN, zh;q = 0.9',
}
url = "https://daily.zhihu.com"
r = requests.get(url, headers=headers)
print(r.text)
首先查看了下系统的编码import sys
sys.getdefaultencoding()
结果为 utf-8
我又查看了爬下来的代码的编码格式:# -*- coding: utf-8 -*-
import requests
user_agent= 'ozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
headers = {
'user-agent': user_agent,
'accept': '* / *',
'accept - encoding': 'gzip, deflate, br',
'accept - language': 'zh - CN, zh;q = 0.9',
}
url = "https://daily.zhihu.com"
r = requests.get(url, headers=headers)
import chardet
print(chardet.detect(r.content))
结果也是utf-8,
蒙蔽的我发现哪哪都是utf-8,完全没毛病好么。。
然后我就猜测是不是文件格式问题,特意使用notepad++更改了文件格式为
utf-8
随后依然报错。。
希望可以帮助到同样出现这种问题的童鞋
|