关于UnicodeDecodeError报错的问题

Munly · 发表于 2015-9-19 14:12:13

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Munly 于 2015-9-19 14:16 编辑

各位老师和鱼友好,
下面是我在学习爬虫的时候写的一段大妈
用来爬智联招聘成都地区的公司名字,发现有个链接有一个改变后面的页码就能获取公司名字.
根据这个在运行的输入页码就希望获取当前页码的公司名字.

import urllib.request
import re
number=input('请输入要查询的页码(小于等于100的自然数):')
url='http://company.zhaopin.com/chengdu/p'+str(number)
req=urllib.request.Request(url)
req.header=('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36')
response=urllib.request.urlopen(url)
html=response.read()
pattern = re.compile('<div.*?"jobs-list-box".*?" target="_blank">(.*?)</a>',re.S)
co_add=re.findall(pattern,html.decode('utf-8'))
for n in range(0,len(co_add)):
print(n,co_add[n])

复制代码

但是有的时候会给出如下的报错.

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

复制代码

如图:

请不吝赐教.

kit1858644 · 发表于 2015-9-19 15:58:45

因為 p2 的內容經過gzip壓縮:

import urllib.request
import re, gzip, io
number=input('请输入要查询的页码(小于等于100的自然数):')
url='http://company.zhaopin.com/chengdu/p'+str(number)
req=urllib.request.Request(url)
req.header=('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36')
response=urllib.request.urlopen(url)
if response.info().get('Content-Encoding') == 'gzip':
buf = io.BytesIO(response.read())
gzip_f = gzip.GzipFile(fileobj=buf)
content = gzip_f.read()
else:
content = response.read()
print(content.decode("UTF-8"))

复制代码

Munly · 发表于 2015-9-19 17:38:05

kit1858644 发表于 2015-9-19 15:58
因為 p2 的內容經過gzip壓縮:

先谢谢了
我试试

ft3312591 · 发表于 2015-9-21 13:02:08

帮顶，这个很实用啊，我试试

loco_v · 发表于 2015-9-25 14:09:03

刚刚看到异常部分，有这个UnicodeDecodeError：Unicode解码时的错误（UnicodeError的子类）

账号		自动登录	找回密码
密码			立即注册