马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 非凡 于 2021-10-23 22:54 编辑
上节说到网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。
从下步骤可以查到当前浏览器User-Agent
可以直接将User-Agent复制下来使用
通过向 HTTP 测试网站(http://httpbin.org/)发送 GET 请求来查看请求头信息,从而获取爬虫程序的 UA。#python里headersc参数是以字典形式加入到请求包中的
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30'}
url = 'http://httpbin.org/'
# 1、创建请求对象,包装ua信息,上一节中”猫片”代码中构建res对象是是一步完成的,现在需要修改headers,所这里res对象分两步构建“
req = request.Request(url=url,headers=headers)
# 2、发送请求,获取响应对象
res = request.urlopen(req)
# 3、提取响应内容,须了解网站是通过什么编码的(查看网页源码,在<head>标签里有网页编码方式),所以爬取下来的内容需要用相应编码去解码,否者爬取的内容会有乱码。
html = res.read().decode('utf-8')
print(html)
|