鱼C论坛

 找回密码
 立即注册
查看: 5729|回复: 4

关于小甲鱼老师python爬虫问题

[复制链接]
发表于 2016-1-23 11:15:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
这两天看小甲鱼老师的python爬取煎蛋MM的视频,然后运行老师的程序,总是出现:
urllib.error.HTTPError: HTTP Error 403: Forbidden

这是因为煎蛋网站禁止爬虫访问么?程序里添加了文件头add_header(add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36')),而且是用的代理,但是还是这个问题,有没有同学遇到这个问题的,交流一下,谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-1-23 11:18:51 | 显示全部楼层
如果练手的话可以爬一些更友善的网站
一般提示403意味着你是爬虫访问被服务器发现了,解决方法一般是继续添加合适的headers, 伪造合理的cookies, 必要时挂上代理也是极好的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-1-23 11:24:25 | 显示全部楼层
hldh214 发表于 2016-1-23 11:18
如果练手的话可以爬一些更友善的网站
一般提示403意味着你是爬虫访问被服务器发现了,解决方法一 ...

那为什么小甲鱼老师在视频中就可以爬煎蛋这个网站的图片呀~~他就是添加的User-Agent这个headers
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-1-23 11:27:26 | 显示全部楼层
Flower_dancing 发表于 2016-1-23 11:24
那为什么小甲鱼老师在视频中就可以爬煎蛋这个网站的图片呀~~他就是添加的User-Agent这个headers{:10_277: ...

老师当时的情况是, 那个网站还没有这么多爬虫访问, 自然网站那边的运维就没管的这么严
当视频放出来的那一刻起, 这网站访问量陡增, 全都是爬虫, 网站的运维没办法只好严打爬虫了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-1-23 11:39:45 | 显示全部楼层
hldh214 发表于 2016-1-23 11:27
老师当时的情况是, 那个网站还没有这么多爬虫访问, 自然网站那边的运维就没管的这么严
当视频放出来的那 ...

哈哈哈哈,原来罪魁祸首是小甲鱼老师,我懂了.....
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-19 09:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表