刚学到爬虫XXOO，遇到403forbidden

夏夜夏月 · 发表于 2015-9-3 11:25:35

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

下面是代码，跟着小甲鱼编的，已经添加header了，不知道为什么煎蛋还是把我禁了难道要用代理？？
请问怎么解决~？？

import urllib.request
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header(\'User-Agent\',\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36\')
response = urllib.request.urlopen(url)
html = response.read()
return html
def get_page(url):
html = url_open(url).decode(\'utf-8\')
a = html.find(\'current-comment-page\') + 23
b = html.find(\']\',a)
return html[a:b]
def find_imgs(url):
html = url_open(url).decode(\'utf-8\')
img_addrs = []
a = html.find(\'img src=\')
while a != -1:
b = html.find(\'.jpg\',a,a +255)
if b !=-1:
img_addrs.append(html[a+9:b+4])
else:
b = a +9
a = html.find(\'img src=\',b)
return img_addrs
def save_imgs(folder, img_addrs):
for each in img_addrs:
filename = each.split(\'/\')[-1]
with open(filename,\'wb\') as f:
img =url_open(each)
f.write(img)
def download_mm(folder=\'OOXX\',pages=10):
os.mkdir(folder)
os.chdir(folder)
url = \'http://jandan.net/ooxx/\'
page_num = int(get_page(url))
for i in range(pages):
page_num -= i
page_url = url + \'page-\' + str(page_num) + \'#comments\'
img_addrs = find_imgs(page_url)
save_imgs(img_addrs)
if __name__ == \'__main__\':
download_mm()

复制代码

这是错误信息：
Traceback (most recent call last):
  File \"C:/Python34/testpython/爬煎蛋的妹纸.py\", line 60, in <module>
download_mm()
  File \"C:/Python34/testpython/爬煎蛋的妹纸.py\", line 51, in download_mm
page_num = int(get_page(url))
  File \"C:/Python34/testpython/爬煎蛋的妹纸.py\", line 13, in get_page
html = url_open(url).decode(\'utf-8\')
  File \"C:/Python34/testpython/爬煎蛋的妹纸.py\", line 7, in url_open
response = urllib.request.urlopen(url)
  File \"C:\\Python34\\lib\\urllib\\request.py\", line 161, in urlopen
return opener.open(url, data, timeout)
  File \"C:\\Python34\\lib\\urllib\\request.py\", line 469, in open
response = meth(req, response)
  File \"C:\\Python34\\lib\\urllib\\request.py\", line 579, in http_response
\'http\', request, response, code, msg, hdrs)
  File \"C:\\Python34\\lib\\urllib\\request.py\", line 507, in error
return self._call_chain(*args)
  File \"C:\\Python34\\lib\\urllib\\request.py\", line 441, in _call_chain
result = func(*args)
  File \"C:\\Python34\\lib\\urllib\\request.py\", line 587, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden
来源: 刚学到爬虫XXOO，遇到403forbidden

ft3312591 · 发表于 2015-9-5 06:47:07

煎蛋是啥。。。

小肥鱼 · 发表于 2015-9-5 11:26:34

有没有找到原因了？

cuibaowenown2 · 发表于 2015-9-8 11:09:03

这是因为煎蛋貌似被墙了的原因，我这儿访问经常是访问不了，不知是不是爬煎蛋太多被禁IP了。。。用代理能上，顺便打下广告，可以参考下我的：http://bbs.fishc.com/thread-64578-1-1.html

笨小孩KK · 发表于 2015-9-8 19:19:33

user-agent 后面设置为 “your agent string” 试试看

Prince8 · 发表于 2015-10-18 11:57:27

我的是发生下面的错误

TimeoutError: [Errno 110] Connection timed out
During handling of the above exception, another exception occurred:

复制代码

xiongdimenchong · 发表于 2015-10-18 19:10:51

什么是爬虫XXOO

qqqq79852852 · 发表于 2015-10-23 00:59:07

这个问题我也遇到了！！

cainiao1th · 发表于 2015-10-28 13:39:12

把第7行response = urllib.request.urlopen(url)改为response = urllib.request.urllopen(req)

zhu244912654 · 发表于 2015-11-4 16:42:54

搞代理吧

163邮箱mba · 发表于 2015-12-15 01:16:13

:shock::shock::shock:

urllib.request.urlopen(url)

复制代码

:lol:

江南孤雁 · 发表于 2015-12-18 16:18:20

我也遇到了，用代理就没事，但用代理还碰运气:dizzy:

zxszx4 · 发表于 2015-12-22 23:14:38

楼主不知道你解决没有，我抓包看了下，这个视频里将的代码根本没有把head替换掉，还是python3.5的head，我用urllib.request.Request(url,headers)可以解决这个报错，但是在接下来的html = response.read().decode("utf-8") 这句报错，说编码不能解析，不知道楼主有没有遇到这样的问题

starryzwh · 发表于 2015-12-23 17:29:38

cainiao1th 发表于 2015-10-28 13:39
把第7行response = urllib.request.urlopen(url)改为response = urllib.request.urllopen(req)

为什么要改为req

zhuzhubjtu · 发表于 2016-1-21 17:16:52

改成req确实过了。

yanwei1024 · 发表于 2016-3-12 22:37:03

user_agent的值把数字部分放几个随机数，就可以了我遇到了我就把浏览器的版本号随机值
我怀疑煎蛋 user_agent 也是一个判断是不是同一个访问的条件，所以只要让它总是变就行，哪怕是一点一点的小变化

yanwei1024 · 发表于 2016-3-12 22:37:34

另外补充一下还可以降低爬取速度 sleep 一下

一丝青瓜 · 发表于 2016-3-16 18:59:51

同样遇到了这个问题，怎么改都不行。。。就是error

夏天的凤 · 发表于 2016-3-17 16:30:29

ft3312591 发表于 2015-9-5 06:47
煎蛋是啥。。。

看不懂

alaleidaputao · 发表于 2016-3-30 16:56:16

cainiao1th 发表于 2015-10-28 13:39
把第7行response = urllib.request.urlopen(url)改为response = urllib.request.urllopen(req)

我改成这个以后又出现了别的错误，

账号		自动登录	找回密码
密码			立即注册

刚学到爬虫XXOO，遇到403forbidden

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块