|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 玄夜Python之路 于 2017-3-15 12:01 编辑
html.encoding获取的编码是:ISO-8859-1
但是在下载到615章时却出现乱码,而当前页面(615_url=http://www.23us.com/html/0/298/1964116.html)的编码格式就是ISO-8859-1呀,有点不知所以然,从度娘那儿得知不仅有html.encoding来获取编码,还有html.apparent_encoding获取编码,亦或有requests.utils.get_encodings_from_content(page_content.text)获取编码的,有点迷糊,望哪位大侠详细指点一二
补充:
爬取是编码没问题,在写入文件也就是下载到本地时报编码错误
2017.3.15补充:
解析到615,634,697,1062,1076,1305,1335,1346,1355章节时编码错误,百度说是Python爬取gzip压缩网页问题,可根据这个网页(Python爬取网页Utf-8解码错误及gzip压缩问题的解决办法 - 知乎专栏
https://zhuanlan.zhihu.com/p/25095566?refer=zjying2000)提高的信息并没有得到解决,不知道还有谁曾遇到过此问题!!!望大神解惑一下。
我仔细分析了一下这些网页其头文件中都是Accept-Encoding:gzip, deflate,如图:Accept-Encoding(此图暂时上传不了)我将headers复制粘贴吧:
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.8
Cache-Control:no-cache
Connection:keep-alive
DNT:1
Host:www.23us.com
Pragma:no-cache
User-Agent:Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 BIDUBrowser/7.6 Safari/537.36
X-DevTools-Emulate-Network-Conditions-Client-Id:86C74E7B-700F-405A-96FD-DC2B68C49A9D |
|