[已解决]求助，57讲报错原因

xue11 · 发表于 2018-10-10 00:18:54

代码按甲鱼老师的写法写的，但是报错：
代码：
import urllib.request
import os

def url_open(url):
heads = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
req = urllib.request.Request(url,headers = heads)
response = urllib.request.urlopen(req)
html = response.read()

return html

def get_page(url):
html = url_open(url).decode('utf-8')
a = html.find('current-comment-page')+23
b = html.find(']',a)
return html[a:b]

def find_imgs(url):
html = url_open(url).decode('utf-8')
img_addrs = []
a = html.find('img src=')

while a!= -1:
      b = html.find('.jpg',a,a+255)
      if b != -1:
         img_addrs.append(html[a+9:b+4])
      else:
         b = a+9
      a = html.find('img src=',b)

for each in img_addrs:
         print(each)



def save_imgs(folder,img_adddrs):
pass

def download_mm(folder = '妹子图片',pages= 15):
os.mkdir(folder)
os.chdir(folder)

url = 'http://jandan.net/ooxx/'
page_number = int(get_page(url))

for i in range(pages):
      page_number = page_number - i
      page_url = url + 'page-' + str(page_number) +'#comments'
      img_addrs = find_imgs(page_url)
      #save_imgs(folder,img_adddrs)

if __name__ == '__main__':
download_mm()

报错原因：
Traceback (most recent call last):
  File "C:\Users\songyuxue\Desktop\download_mmtp.py", line 61, in <module>
download_mm()
  File "C:\Users\songyuxue\Desktop\download_mmtp.py", line 56, in download_mm
img_addrs = find_imgs(page_url)
  File "C:\Users\songyuxue\Desktop\download_mmtp.py", line 23, in find_imgs
html = url_open(url).decode('utf-8')
  File "C:\Users\songyuxue\Desktop\download_mmtp.py", line 8, in url_open
response = urllib.request.urlopen(req)
  File "C:\Users\songyuxue\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 162, in urlopen
return opener.open(url, data, timeout)
  File "C:\Users\songyuxue\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 471, in open
response = meth(req, response)
  File "C:\Users\songyuxue\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 581, in http_response
'http', request, response, code, msg, hdrs)
  File "C:\Users\songyuxue\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 509, in error
return self._call_chain(*args)
  File "C:\Users\songyuxue\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 443, in _call_chain
result = func(*args)
  File "C:\Users\songyuxue\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 589, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 404: Not Found

最佳答案

月排行榜 / 总排行榜

1005204767

2018-10-10 00:18:55

刚刚一直发布出来东西，，，js就是javascript动态加载，具体我也不大清楚，最近才在看，
你要爬这种可以看看小甲鱼的极客python，那里面讲了一点。还可以试试seleninum这种模拟浏览器行为的库。
我也很菜哈哈知道的就这么多了。
另外学爬虫的话给你分享一个课程
https://www.bilibili.com/video/av18202461
这里面讲的还可以，把前面的安装什么东西的跳过就行了。
慢慢来哈哈，一开始先从简单的网站爬起，在学习中接触更高级的

跳转到最佳答案楼层

1005204767 · 发表于 2018-10-10 00:18:55

这个最佳答案由 1005204767 给出，感谢 1005204767 的回答。

单击隐藏图章

刚刚一直发布出来东西，，，js就是javascript动态加载，具体我也不大清楚，最近才在看，
你要爬这种可以看看小甲鱼的极客python，那里面讲了一点。还可以试试seleninum这种模拟浏览器行为的库。
我也很菜哈哈知道的就这么多了。
另外学爬虫的话给你分享一个课程
https://www.bilibili.com/video/av18202461
这里面讲的还可以，把前面的安装什么东西的跳过就行了。
慢慢来哈哈，一开始先从简单的网站爬起，在学习中接触更高级的

wongyusing · 发表于 2018-10-10 00:56:22

为什么又是这个问题？
由于视频是几年前的视频
网站己经改了
以上的代码己经不能用了

1005204767 · 发表于 2018-10-10 01:09:05

我看了下，首先是这个网站变了，图片是用js加载的，所以你下载到的网页是不含图片链接的你可以在find_imgs这个函数中打印b你会发现b是一个空数组，说明没有找到任何.jpg的文件，当然你也可以下载网页源代码手动搜索。
其次在download_mm这个函数中每看一页打印页码，你会发现打印到最后页码是-6.这当然不对了

for i in range(pages):
page_number = page_number - i
page_url = url + 'page-' + str(page_number) + '#comments'
print(page_number)
img_addrs = find_imgs(page_url)
# save_imgs(folder,img_adddrs)

复制代码

为什么呢
for i in range(pages):
      page_number = page_number - i  看这一行
你是想用pages控制爬取的页数但是随着i逐渐增大你的页数是跳变的，例如初始page_number = 16
第一次  i = 0 page_number  = 16
第二次  i = 1 page_number  = 16 - 1 = 15
第三次  i = 2 page_number  = 15 - 2 = 13
第四次  i = 3 page_number  = 13 - 3 = 10
你会发现当第六次循环时页数已经是负的了
所以这一句应该改成page_number = page_number - 1

这样就不会报错了  ，但是由于网站的原因，你这种方法爬不到图片
所以还是继续努力往下学吧！

xue11 · 发表于 2018-10-10 19:42:45

1005204767 发表于 2018-10-10 01:09
我看了下，首先是这个网站变了，图片是用js加载的，所以你下载到的网页是不含图片链接的你可以在find_imgs ...

感谢！！！
但是 “图片是用js加载” 这句是什么意思啊？

1005204767 · 发表于 2018-10-10 22:41:34

1005204767 · 发表于 2018-10-10 22:47:15

本帖最后由 1005204767 于 2018-10-10 22:51 编辑

我也不知道为啥一直发不出来，，，，
js就是javascript动态加载。具体怎么爬我也不大熟悉。
你可以看看小甲鱼的极客python，那里面讲了一些，另外你可以看看selenium这种模拟浏览器的库肯定是可以的。
我也很菜哈哈，知道的就这么多了。
另外推荐给你一个学习爬虫的教程，里面讲的挺全的。

https://www.bilibili.com/video/av18202461

复制代码

1005204767 · 发表于 2018-10-10 22:51:17

终于，，，发出来了。。。

工藤v新一 · 发表于 2018-10-11 11:56:19

import urllib.request
import os
import base64
import shutil
def url_open(url):
heads = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
req = urllib.request.Request(url,headers = heads)
response = urllib.request.urlopen(req)
html = response.read()
return html
def get_page(url):
html = url_open(url).decode('utf-8')
a = html.find('current-comment-page">[')+23
b = html.find(']',a)
return html[a:b]
def find_imgs(url):
html = url_open(url).decode('utf-8')
img_addrs = []
a = html.find('"img-hash">')
while a!= -1:
b = html.find('<',a,a+255)
if b != -1:
img_addrs.append('http:'+base64.b64decode(html[a+11:b]).decode('utf-8'))
else:
break
a = html.find('"img-hash">',b)
return img_addrs
def save_imgs(folder,img_addrs):
for img in img_addrs:
data =url_open(img)
with open(img.split('/')[-1],"wb") as f:
f.write(data)
def download_mm(folder = '妹子图片',pages= 5):
if os.path.exists(folder):
shutil.rmtree(folder)
os.mkdir(folder)
os.chdir(folder)
url = 'http://jandan.net/ooxx/'
page_number = int(get_page(url))
for i in range(pages):
page_url = url + 'page-' + str(page_number) +'#comments'
page_number = page_number - 1
img_addrs = find_imgs(page_url)
save_imgs(folder,img_addrs)
print('完成')
if __name__ == '__main__':
download_mm()

复制代码

你的煎蛋已到达战场，对比一下你就知道了

账号		自动登录	找回密码
密码			立即注册