鱼C论坛

 找回密码
 立即注册
查看: 1453|回复: 0

[技术交流] python爬虫——第三篇(重构User-Agent)

[复制链接]
发表于 2021-10-23 18:30:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 非凡 于 2021-10-23 22:54 编辑

上节说到网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。
从下步骤可以查到当前浏览器User-Agent
1.jpg
可以直接将User-Agent复制下来使用

通过向 HTTP 测试网站(http://httpbin.org/)发送 GET 请求来查看请求头信息,从而获取爬虫程序的 UA。
  1. #python里headersc参数是以字典形式加入到请求包中的
  2. headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30'}
  3. url = 'http://httpbin.org/'
  4. # 1、创建请求对象,包装ua信息,上一节中”猫片”代码中构建res对象是是一步完成的,现在需要修改headers,所这里res对象分两步构建“
  5. req = request.Request(url=url,headers=headers)
  6. # 2、发送请求,获取响应对象
  7. res = request.urlopen(req)
  8. # 3、提取响应内容,须了解网站是通过什么编码的(查看网页源码,在<head>标签里有网页编码方式),所以爬取下来的内容需要用相应编码去解码,否者爬取的内容会有乱码。
  9. html = res.read().decode('utf-8')

  10. print(html)
复制代码


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 04:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表