鱼C论坛

 找回密码
 立即注册
查看: 38|回复: 1

python爬虫台湾新闻网站

[复制链接]
发表于 昨天 21:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我在重现一个爬虫台湾新闻网站的项目,在运行这个项目时,我使用了代理将ip改为台湾,但程序仍说无法访问对应的新闻网站网址
我将网址直接复制到浏览器中是可以访问的

程序log如下:

2024-10-17 20:47:57 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://udn.com/robots.txt> (failed 3 times): User timeout caused connection failure: Getting https://udn.com/robots.txt took longer than 180.0 seconds..
2024-10-17 20:47:57 [scrapy.downloadermiddlewares.robotstxt] ERROR: Error downloading <GET https://udn.com/robots.txt>: User timeout caused connection failure: Getting https://udn.com/robots.txt took longer than 180.0 seconds..
    raise TimeoutError(f"Getting {url} took longer than {timeout} seconds.")
twisted.internet.error.TimeoutError: User timeout caused connection failure: Getting https://udn.com/robots.txt took longer than 180.0 seconds..

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 昨天 21:06 | 显示全部楼层
根据您提供的日志信息,问题可能与以下几点有关:

1. **代理设置问题**:虽然您使用了代理,但它可能没有正确配置或性能较差。您可以验证代理是否有效,尝试其他台湾代理,或临时停用代理以查看问题是否得到解决。

2. **网络连接问题**:检查您的网络连接是否有问题。某些防火墙或网络设置可能导致长时间超时。

3. **请求头设置**:某些网站需要特定的请求头(如User-Agent)才能正常回应爬虫请求。可以尝试在请求中添加或修改User-Agent,以便模拟常见的浏览器行为。

4. **网站防爬机制**:网站可能有防爬虫的设置,导致访问频率过高时阻止请求。您可以尝试降低请求频率,或者在请求之间增加随机的延迟。

5. **Scrapy设置**:检查您的Scrapy爬虫配置,确保timeout和retry相关设置合理。例如,可以适当增加超时和重试次数。

尝试以上解决方案后观察是否有所改进,如果还有问题,请提供更多细节以便进一步诊断。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-18 11:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表