轮一只爬虫的自我修养4：OOXX

ytx25 · 发表于 2017-2-19 20:36:30

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os
import random

def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36')

response = urllib.request.urlopen(url)
html = response.read()

return html

def get_page(url):
html = url_open(url).decode('utf-8')

a = html.find('current-comment-page') + 23
b = html.find(']', a)

return html[a:b]

def find_imgs(url):
html = url_open(url).decode('utf-8')
img_addrs = []

a = html.find('img src=')

while a != -1:
      b = html.find('.jpg', a, a+255)
      if b != -1:
         img_addrs.append(html[a+9:b+4])
      else:
         b = a + 9

      a = html.find('img src=', b)

return img_addrs

def save_imgs(folder, img_addrs):
for each in img_addrs:
      filename = each.split('/')[-1]
      with open(filename, 'wb') as f:
         img = url_open(each)
         f.write(img)

def download_mm(folder='OOXX', pages=10):
os.mkdir(folder)
os.chdir(folder)

url = "http://jandan.net/ooxx/"
page_num = int(get_page(url))

for i in range(pages):
      page_num -= i
      page_url = url + 'page-' + str(page_num) + '#comments'
      img_addrs = find_imgs(page_url)
      save_imgs(folder, img_addrs)

if __name__ == '__main__':
download_mm()

系统反馈：
Traceback (most recent call last):
  File "C:\Users\Snofus\Desktop\download_mm.py", line 66, in <module>
download_mm()
  File "C:\Users\Snofus\Desktop\download_mm.py", line 63, in download_mm
save_imgs(folder, img_addrs)
  File "C:\Users\Snofus\Desktop\download_mm.py", line 48, in save_imgs
img = url_open(each)
  File "C:\Users\Snofus\Desktop\download_mm.py", line 7, in url_open
req = urllib.request.Request(url)
  File "E:\python\Python3.5.2\lib\urllib\request.py", line 269, in __init__
self.full_url = url
  File "E:\python\Python3.5.2\lib\urllib\request.py", line 295, in full_url
self._parse()
  File "E:\python\Python3.5.2\lib\urllib\request.py", line 324, in _parse
raise ValueError("unknown url type: %r" % self.full_url)
ValueError: unknown url type: '//wx2.sinaimg.cn/mw600/68f6e545ly1fcw1a1kdxzj20k00zkkbz.jpg'

敢问大神这是什么问题？

world_dog · 发表于 2017-10-18 01:09:06

本帖最后由 world_dog 于 2017-10-18 01:10 编辑

在每一个找到的地址前面加上 http:

luroot153 · 发表于 2018-2-3 15:08:19

加了http:都不管用

°蓝鲤歌蓝 · 发表于 2018-2-3 16:44:40

煎蛋网图片已经加密了，刚入坑就不要爬了。
以后成老司机再试着破解爬取。

PYYP · 发表于 2018-2-28 18:40:12

°蓝鲤歌蓝发表于 2018-2-3 16:44
煎蛋网图片已经加密了，刚入坑就不要爬了。
以后成老司机再试着破解爬取。

a = html.find('current-comment-page') + 23
b = html.find(']', a)

find 什么叫偏移？如果学正则表达式是不是可以代替字符串的内置方法

zhaiyan626 · 发表于 2018-3-16 10:37:58

response = urllib.request.urlopen(req)
这样试试看看行不行，如果你直接用response = urllib.request.urlopen(url)，那么前面的req的header就白加了。

账号		自动登录	找回密码
密码			立即注册

轮一只爬虫的自我修养4：OOXX

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块