鱼C论坛

 找回密码
 立即注册
查看: 2258|回复: 6

[已解决]爬取煎蛋网妹子图保存图片的问题

[复制链接]
发表于 2017-10-23 16:49:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request
  2. import re
  3. import random
  4. import os

  5. def up():
  6.     ippup = ['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3637.220 Safari/537.36',
  7.              "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0",
  8.              "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; Maxthon/3.0)",
  9.              "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ;  QIHU 360EE"]
  10.     thisup = random.choice(ippup)
  11.     print(thisup)
  12.     headers = ("User-Agent",thisup)
  13.     opener = urllib.request.build_opener()
  14.     opener.addheaders = [headers]
  15.     urllib.request.install_opener(opener)
  16.    



  17. def open_url(page):
  18.     up()
  19.     for i in range(200,page):
  20.         url = 'https://jandan.net/ooxx/page-'+str(i)
  21.         html = urllib.request.urlopen(url).read().decode('utf-8')
  22.         p = '<img src="(\//[w].*?\.jpg)'
  23.         imglist = re.compile(p).findall(html)
  24.         '''
  25.         for each in imglist:
  26.             print(each)
  27.         '''
  28.         try:
  29.             os.mkdir('图片保存')
  30.         except FileExistsError:
  31.             pass
  32.         os.chdir('图片保存')
  33.         for each in imglist:
  34.             imgname = each.split('/')[-1]
  35.             urllib.request.urlretrieve(imglist,imgname,None)

  36.         
  37.             


  38. if __name__ == '__main__':
  39.     open_url(220))
复制代码


运行后就报错:
  1. Traceback (most recent call last):
  2.   File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 46, in <module>
  3.     open_url(int(220))
  4.   File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 39, in open_url
  5.     urllib.request.urlretrieve(imglist,imgname,None)
  6.   File "C:\Python34\lib\urllib\request.py", line 176, in urlretrieve
  7.     url_type, path = splittype(url)
  8.   File "C:\Python34\lib\urllib\parse.py", line 851, in splittype
  9.     match = _typeprog.match(url)
  10. TypeError: expected string or buffer
复制代码


这是什么原因 ,求各位大神帮助
最佳答案
2017-10-23 17:27:49
本帖最后由 $DIM 于 2017-10-23 17:35 编辑
梦想一事无成 发表于 2017-10-23 17:21
有是这样的报错 我也不知道怎么回事print可以打印出来可是就是保存不了


ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.j

url //前面少了https:

完整的:https://wx3.....
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-10-23 17:10:53 | 显示全部楼层
官方说明:
def urlretrieve(url, filename=None, reporthook=None, data=None):

urllib.request.urlretrieve(imglist,imgname,None) imglist为list

用urllib.request.urlretrieve(each, imgname, None)试试
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-10-23 17:21:37 | 显示全部楼层
$DIM 发表于 2017-10-23 17:10
官方说明:
def urlretrieve(url, filename=None, reporthook=None, data=None):
  1. Traceback (most recent call last):
  2.   File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 46, in <module>
  3.     open_url(220)
  4.   File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 39, in open_url
  5.     urllib.request.urlretrieve(each,imgname,None)
  6.   File "C:\Python34\lib\urllib\request.py", line 178, in urlretrieve
  7.     with contextlib.closing(urlopen(url, data)) as fp:
  8.   File "C:\Python34\lib\urllib\request.py", line 153, in urlopen
  9.     return opener.open(url, data, timeout)
  10.   File "C:\Python34\lib\urllib\request.py", line 440, in open
  11.     req = Request(fullurl, data)
  12.   File "C:\Python34\lib\urllib\request.py", line 258, in __init__
  13.     self.full_url = url
  14.   File "C:\Python34\lib\urllib\request.py", line 284, in full_url
  15.     self._parse()
  16.   File "C:\Python34\lib\urllib\request.py", line 313, in _parse
  17.     raise ValueError("unknown url type: %r" % self.full_url)
  18. ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.jpg'
复制代码


有是这样的报错 我也不知道怎么回事print可以打印出来可是就是保存不了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-23 17:27:49 | 显示全部楼层    本楼为最佳答案   
本帖最后由 $DIM 于 2017-10-23 17:35 编辑
梦想一事无成 发表于 2017-10-23 17:21
有是这样的报错 我也不知道怎么回事print可以打印出来可是就是保存不了


ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.j

url //前面少了https:

完整的:https://wx3.....
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-10-23 17:39:58 | 显示全部楼层
本帖最后由 梦想一事无成 于 2017-10-23 17:41 编辑
$DIM 发表于 2017-10-23 17:27
ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.j

url  ...


好了 可以保存了 但是保存后每个文件夹中就有一个相同名字的文件夹,这是不是翻页的结果,
%5~CG`6{6`5GAYB`C6@Y8LR.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-23 17:55:12 | 显示全部楼层
梦想一事无成 发表于 2017-10-23 17:39
好了 可以保存了 但是保存后每个文件夹中就有一个相同名字的文件夹,这是不是翻页的结果,

目测是循环创建了文件夹
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-10-23 18:10:30 | 显示全部楼层
$DIM 发表于 2017-10-23 17:55
目测是循环创建了文件夹

感谢你对我的帮助
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-9-10 06:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表