56课爬虫：OOXX，一直报错403 新人帖 New

xiaozhitadie · 发表于 2017-11-21 16:39:50

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 xiaozhitadie 于 2017-11-22 21:50 编辑

萌新一枚，最近在学习爬虫课程的时候一直报错403，代码完全按照小甲鱼的视频教程输入的，不知道为什么，也可能是自己输入错误问题。请大神指点！

xiaozhitadie · 发表于 2017-11-21 16:40:32

import urllib.request
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36')
response=urllib.request.urlopen(url)
html=response.read()
def get_page(url):
html=url_open(url).decode('utf-8')
a = html.find('current-comment-page')+23
b = html.find(']',a)
print(html[a:b])
def find_imgs(url):
url_open(url).decode('utf-8')
img_addrs=[]
a = html.find('img src=')
while a!=1:
b = html.find('.jpg',a,a+255)
if b!=-1:
img_addrs.append(html[a+9:b+4])
else :b=a+9
a=html.find('img src=',b)
for each in img_addrs:
print(each)
def save_img(folder,img_addrs):
for each in img_addrs:
filename=each.split('/')[-1]
with open(filename,'wb') as f:
img = url_open(each)
f.write(img)
def download_mm(folder='OOXX',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/ooxx/'
page_num=int(get_page(url))
for i in range(pages):
page_num -= i
page_url = url+'page-'+str(page_num)+'#comments'
img_addrs = find_imgs(page_url)
save_imgs(folder,img_addrs)
if __name__== '__main__':
download_mm()

复制代码

python_chan · 发表于 2017-11-21 19:07:06

ooxx7788 · 发表于 2017-11-22 09:37:18

虽然你没有给错误代码，但是我估计是
45行改为
img = url_open('http:' + each)

purplenight · 发表于 2017-11-22 09:37:30

注意第七行：urllib.request.urlopen(url)，是req吧。

xiaozhitadie · 发表于 2017-11-22 21:04:01

ooxx7788 发表于 2017-11-22 09:37
虽然你没有给错误代码，但是我估计是
45行改为
img = url_open('http:' + each)

并不是

xiaozhitadie · 发表于 2017-11-22 21:27:50

purplenight 发表于 2017-11-22 09:37
注意第七行：urllib.request.urlopen(url)，是req吧。

不是的

ooxx7788 · 发表于 2017-11-22 21:38:01

xiaozhitadie 发表于 2017-11-22 21:04
并不是

上错误代码啊，难道让我们肉眼debugger吗

xiaozhitadie · 发表于 2017-11-22 21:48:47

ooxx7788 发表于 2017-11-22 21:38
上错误代码啊，难道让我们肉眼debugger吗

urllib.error.HTTPError: HTTP Error 403: Forbidden

ooxx7788 · 发表于 2017-11-22 23:28:46

xiaozhitadie 发表于 2017-11-22 21:48
urllib.error.HTTPError: HTTP Error 403: Forbidden

更网站封了。换个网站去爬吧

purplenight · 发表于 2017-11-23 09:10:17

仔细瞧瞧吧

>>> import urllib.request
>>>
>>> url = 'http://jandan.net/ooxx/'
>>> req = urllib.request.Request(url)
>>> req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36')
>>>
>>> response=urllib.request.urlopen(url)
Traceback (most recent call last):
File "<pyshell#8>", line 1, in <module>
response=urllib.request.urlopen(url)
File "D:\Program Files\Python36\lib\urllib\request.py", line 223, in urlopen
return opener.open(url, data, timeout)
File "D:\Program Files\Python36\lib\urllib\request.py", line 532, in open
response = meth(req, response)
File "D:\Program Files\Python36\lib\urllib\request.py", line 642, in http_response
'http', request, response, code, msg, hdrs)
File "D:\Program Files\Python36\lib\urllib\request.py", line 570, in error
return self._call_chain(*args)
File "D:\Program Files\Python36\lib\urllib\request.py", line 504, in _call_chain
result = func(*args)
File "D:\Program Files\Python36\lib\urllib\request.py", line 650, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden
>>>
>>> response=urllib.request.urlopen(req)
>>>
>>> response.read()[:32]
b'<!DOCTYPE html>\r\n<html dir="ltr"'
>>>

复制代码

ba21 · 发表于 2017-11-23 22:41:58

xxoo对网站图片地址进行了加密处理。如果只是学习，了解一下就差不多了。要不也可以换个网站测式

xiaozhitadie · 发表于 2017-11-30 22:00:36

ba21 发表于 2017-11-23 22:41
xxoo对网站图片地址进行了加密处理。如果只是学习，了解一下就差不多了。要不也可以换个网站测式

好的，谢谢，最近几天学习了一下才知道，找了几个简单的网址试了试成功了

球磨川禊 · 发表于 2018-1-5 18:21:33

xiaozhitadie 发表于 2017-11-30 22:00
好的，谢谢，最近几天学习了一下才知道，找了几个简单的网址试了试成功了

有什么简单的网站推荐推荐呗~

账号		自动登录	找回密码
密码			立即注册

56课 爬虫：OOXX，一直报错403 新人帖 New