|
发表于 2024-12-6 00:43:28
|
显示全部楼层
本帖最后由 小甲鱼的二师兄 于 2024-12-6 00:44 编辑
<Response [418]> 是指你的爬虫请求返回了 HTTP 状态码 418,也就是 “I'm a teapot” 状态码。这是一个愚人节玩笑性质的状态码,但在某些情况下,它可能被用作限制或阻止爬虫的标志。
- HTTP 418 状态码来源于 RFC 2324,原本是作为一个幽默提案的“Hyper Text Coffee Pot Control Protocol (HTCPCP)”的一部分。
- 它的原始语义是 “我是一个茶壶,无法冲泡咖啡”,表示服务器拒绝完成请求,因为它的功能设计不支持。
- 实际使用中,很多服务器、CDN 或反爬虫系统会用 418 来标识某些类型的非法请求,或者作为一种防护机制来对抗爬虫。
服务器可能检测到你的请求模式、User-Agent 或其他特征,不符合正常用户的行为,因此返回 418 状态码。
确保你的请求头中包含一个合理的 User-Agent,伪装成正常的浏览器行为。例如:
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
- }
- response = requests.get(url, headers=headers)
复制代码 |
|