刚学到爬虫XXOO，遇到403forbidden

咸水甲鱼 · 发表于 2016-7-5 20:32:33

我照搬的代码，为什么出现的是别的错误？

羊羊羊 · 发表于 2016-9-8 20:32:45

咸水甲鱼发表于 2016-7-5 20:32
我照搬的代码，为什么出现的是别的错误？

米兔啊

碧海唐 · 发表于 2016-10-2 18:41:26

me too啊什么问题

hustlin · 发表于 2017-1-5 12:10:37

starryzwh 发表于 2015-12-23 17:29
为什么要改为req

req = urllib.request.Request(url)
req.add_header('xxx', 'xxx')
response = urllib.request.urlopen(req)
上面三句与下面这一句是等效的
response = urllib.request.urlopen(url)
之所以用上面三句是为了伪装成浏览器模式，直接用下面那个是无法伪装的。我在爬取的过程中遇到这个问题时修改之后就能爬取很多张了，不伪装只能爬取118张。课程视频里有讲。

调皮博士 · 发表于 2017-1-19 14:03:01

1.通过pass排除检测的方法，我发现只有在save的那个步骤会出现403错误，那么只要对这个地方作出修改就行了。
2.我单独一张一张的下的方式测试了下，发现是随机403，也就是按个10次8次总有几次能过。
3.我试过代理，也试过随机user-agent,发现都不能有效解决这个问题，不知道是不是别的什么地方被检测出来。
4.综上，既然怎么伪装都不行，那么就按照2步骤来，只要报错的图就重新下，按照这个思路用

success = False
while not success:
try:
with open(filename,'wb') as f:
img = url_open(each)
f.write(img)
success = True
#这里你可以自己加一些如time.sleep()的参数，或者print('something')来查验进度
except:pass

复制代码

重复错误部分的下载，实测虽然耗时会长了一些，除了一张疑是广告的图片下载不了之外，其他都可以下载了。
5.对第3点提到的问题，我个人有几点猜想：①可能需要一个完整的头信息，②顺序下图的模式有可能被判为爬虫，③多次试验下载同一个图导致被服务器判定为爬虫。

蓝田暖玉 · 发表于 2017-3-11 15:41:48

我也遇到了这个问题，按照楼上说的，把第七行括号里面的url改成req就正常运行了。
req应该是经过header伪装的，而url还没有。

wyh2006 · 发表于 2017-5-13 11:48:13

学习学习！！

账号		自动登录	找回密码
密码			立即注册

刚学到爬虫XXOO，遇到403forbidden

浏览过的版块