[已解决]爬虫转码问题

zkamsk · 发表于 2017-7-20 10:45:23

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

写了一个抓取代理IP的代码，刚开始还正常，可是过一会就爆出'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte的错误
问题是一开始是正常能用的，这是为什么啊

import re
import urllib.request
url='http://www.kuaidaili.com/free/inha/'
respone=urllib.request.urlopen(url)
html=respone.read().decode('utf-8')
ip=r'IP">(\d{0,3}\.\d{0,3}\.\d{0,3}\.\d{0,3})(?:[\s\S]*?)"PORT">(\d{2,4})'
iplist=re.findall(ip,html)
for i in iplist:
print(i)

复制代码

最佳答案

月排行榜 / 总排行榜

SixPy

2017-7-20 14:04:39

爬虫，分析网页字符集和字符编码的基本技巧。
http://bbs.fishc.com/thread-74916-1-1.html
(出处: 鱼C论坛)

跳转到最佳答案楼层

SixPy · 发表于 2017-7-20 14:04:39

爬虫，分析网页字符集和字符编码的基本技巧。
http://bbs.fishc.com/thread-74916-1-1.html
(出处: 鱼C论坛)

和vvv · 发表于 2017-7-20 16:50:38

本帖最后由和vvv 于 2017-7-20 16:51 编辑

这个问题比较烦人，出现这种问题，有时是因为网页经过了gzip压缩，而用爬虫爬取时并没有解压缩。有时又不是这种情况。以前写爬虫经常出现这种问题。最后发现，比较简单的方法是使用requests模块进行数据爬取。如果要手动处理编码比较困难和复杂。

import requests
import re
from lxml import etree
data = requests.get("https://channel.jd.com/p_wenxuezongheguan.html").text
print(len(data))
pat = 'h3><a clstag=.*?>(.*?)</a></h3>'
rst = re.compile(pat).findall(data)
print(rst)
treedata = etree.HTML(data)
rst1 = treedata.xpath("//h3/a/text()")[-5:-1]
print(rst1)

复制代码

fairytailsy · 发表于 2017-7-20 17:31:19

zkamsk · 发表于 2017-7-22 10:11:16

SixPy 发表于 2017-7-20 14:04
爬虫，分析网页字符集和字符编码的基本技巧。
http://bbs.fishc.com/thread-74916-1-1.html
(出处: 鱼C论 ...

很关键

zkamsk · 发表于 2017-7-22 10:27:15

和vvv 发表于 2017-7-20 16:50
这个问题比较烦人，出现这种问题，有时是因为网页经过了gzip压缩，而用爬虫爬取时并没有解压缩。有时又不是 ...

python3里面request.get应该怎么写？

和vvv · 发表于 2017-7-22 10:36:19

我写的那个代码就是python3的

zkamsk · 发表于 2017-7-22 10:45:54

本帖最后由 zkamsk 于 2017-7-22 10:47 编辑

和vvv 发表于 2017-7-22 10:36
我写的那个代码就是python3的

我根本不存在requests这个模块只能import urllib.request

zkamsk · 发表于 2017-7-22 10:49:29

和vvv 发表于 2017-7-22 10:36
我写的那个代码就是python3的

但是我已经解决这个问题了，确实是gzip压缩问题，

import gzip
html_zip=respone.read()
html=gzip.decompress(html_zip).decode('utf-8')

复制代码

你的应该是最佳答案，刚才手快了，不好意思

和vvv · 发表于 2017-7-22 10:56:14

requests是第三方模块，需要安装。

zkamsk · 发表于 2017-7-22 11:03:32

和vvv 发表于 2017-7-22 10:56
requests是第三方模块，需要安装。

明白了，谢谢

账号		自动登录	找回密码
密码			立即注册