|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 Munly 于 2015-9-19 14:16 编辑
各位老师和鱼友好,
下面是我在学习爬虫的时候写的一段大妈
用来爬智联招聘成都地区的公司名字,发现有个链接有一个改变后面的页码就能获取公司名字.
根据这个在运行的输入页码就希望获取当前页码的公司名字.
- import urllib.request
- import re
- number=input('请输入要查询的页码(小于等于100的自然数):')
- url='http://company.zhaopin.com/chengdu/p'+str(number)
- req=urllib.request.Request(url)
- req.header=('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36')
- response=urllib.request.urlopen(url)
- html=response.read()
- pattern = re.compile('<div.*?"jobs-list-box".*?" target="_blank">(.*?)</a>',re.S)
- co_add=re.findall(pattern,html.decode('utf-8'))
- for n in range(0,len(co_add)):
- print(n,co_add[n])
复制代码
但是有的时候会给出如下的报错.
- UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
复制代码
如图:
请不吝赐教. |
-
错误图片
|