鱼C论坛

 找回密码
 立即注册
查看: 888|回复: 1

python爬虫

[复制链接]
发表于 2023-5-26 12:10:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
robots协议中的User-agent表示的是爬虫程序的名字
那如果爬虫程序A被禁止了以后,我换个爬虫程序的名字岂不是可以继续爬虫了嘛?
本人python小白  纯纯刚入门 问的问题可能比较幼稚,还望各位大佬详解
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-26 12:11:35 | 显示全部楼层
User-agent是HTTP协议中的一个请求头部信息,用于告诉服务器发送请求的客户端类型和版本号。robots协议中的User-agent指的是爬虫程序的名称,用于告诉网站管理员哪些爬虫程序可以访问网站,哪些不可以。如果一个爬虫程序被禁止了,换一个爬虫程序名称是无法继续爬取数据的。因为网站管理员可以根据IP地址、请求频率等信息来判断是否是同一个爬虫程序在访问网站。如果被判断为同一个爬虫程序,即使更换了名称,也会被禁止。

所以,如果想要继续爬取被禁止的网站,需要采取其他措施,例如使用代理IP、降低请求频率等。另外,需要注意的是,爬取网站时需要遵守robots协议和相关法律法规,不要进行恶意爬取,否则可能会被网站封禁IP或者面临法律风险。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 20:01

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表