|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
from urllib import request
from urllib import parse
url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' #这个是拉钩network上面第一个
url2 = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false' #之前有了解到这个是拉勾网用另一个链接用于存储数据(似乎是的,有问题望求教)
header = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'
, 'Referer':'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' ,
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8'
} #这个好像是要伪装成网页查询而不是爬虫。
data = {'first':'true', 'pn' : 1, 'kd' : 'python'}
req = request.Request(url2, headers = header, data = parse.urlencode(data).encode('utf-8'), method = 'POST')
resep = request.urlopen(req)
print(resep.read().decode('utf-8'))
然而我最后的结果居然还是
{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"114.223.156.166","state":2402}
查了之后了解到这个是可能被发现是爬虫了
新手不会爬,有大佬能帮忙看看吗哈哈
|
|