python爬虫——第三篇（重构User-Agent）

非凡 · 发表于 2021-10-23 18:30:41

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由非凡于 2021-10-23 22:54 编辑

上节说到网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。
从下步骤可以查到当前浏览器User-Agent

可以直接将User-Agent复制下来使用

通过向 HTTP 测试网站（http://httpbin.org/）发送 GET 请求来查看请求头信息，从而获取爬虫程序的 UA。

#python里headersc参数是以字典形式加入到请求包中的
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30'}
url = 'http://httpbin.org/'
# 1、创建请求对象，包装ua信息，上一节中”猫片”代码中构建res对象是是一步完成的，现在需要修改headers,所这里res对象分两步构建“
req = request.Request(url=url,headers=headers)
# 2、发送请求，获取响应对象
res = request.urlopen(req)
# 3、提取响应内容,须了解网站是通过什么编码的（查看网页源码，在<head>标签里有网页编码方式），所以爬取下来的内容需要用相应编码去解码，否者爬取的内容会有乱码。
html = res.read().decode('utf-8')
print(html)

复制代码

账号		自动登录	找回密码
密码			立即注册

[技术交流] python爬虫——第三篇（重构User-Agent）