[已解决]爬取煎蛋网妹子图保存图片的问题

梦想一事无成 · 发表于 2017-10-23 16:49:24

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
import random
import os
def up():
ippup = ['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3637.220 Safari/537.36',
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; Maxthon/3.0)",
"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; QIHU 360EE"]
thisup = random.choice(ippup)
print(thisup)
headers = ("User-Agent",thisup)
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
def open_url(page):
up()
for i in range(200,page):
url = 'https://jandan.net/ooxx/page-'+str(i)
html = urllib.request.urlopen(url).read().decode('utf-8')
p = '<img src="(\//[w].*?\.jpg)'
imglist = re.compile(p).findall(html)
'''
for each in imglist:
print(each)
'''
try:
os.mkdir('图片保存')
except FileExistsError:
pass
os.chdir('图片保存')
for each in imglist:
imgname = each.split('/')[-1]
urllib.request.urlretrieve(imglist,imgname,None)
if __name__ == '__main__':
open_url(220))

复制代码

运行后就报错：

Traceback (most recent call last):
File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 46, in <module>
open_url(int(220))
File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 39, in open_url
urllib.request.urlretrieve(imglist,imgname,None)
File "C:\Python34\lib\urllib\request.py", line 176, in urlretrieve
url_type, path = splittype(url)
File "C:\Python34\lib\urllib\parse.py", line 851, in splittype
match = _typeprog.match(url)
TypeError: expected string or buffer

复制代码

这是什么原因，求各位大神帮助

最佳答案

月排行榜 / 总排行榜

$DIM

2017-10-23 17:27:49

本帖最后由 $DIM 于 2017-10-23 17:35 编辑

梦想一事无成发表于 2017-10-23 17:21
有是这样的报错我也不知道怎么回事print可以打印出来可是就是保存不了

ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.j

url //前面少了https:

完整的：https://wx3.....

跳转到最佳答案楼层

$DIM · 发表于 2017-10-23 17:10:53

官方说明：
def urlretrieve(url, filename=None, reporthook=None, data=None):

urllib.request.urlretrieve(imglist,imgname,None)　imglist为list

用urllib.request.urlretrieve(each, imgname, None)试试

梦想一事无成 · 发表于 2017-10-23 17:21:37

$DIM 发表于 2017-10-23 17:10
官方说明：
def urlretrieve(url, filename=None, reporthook=None, data=None):

Traceback (most recent call last):
File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 46, in <module>
open_url(220)
File "C:\Users\hp\Desktop\煎蛋妹子图.py", line 39, in open_url
urllib.request.urlretrieve(each,imgname,None)
File "C:\Python34\lib\urllib\request.py", line 178, in urlretrieve
with contextlib.closing(urlopen(url, data)) as fp:
File "C:\Python34\lib\urllib\request.py", line 153, in urlopen
return opener.open(url, data, timeout)
File "C:\Python34\lib\urllib\request.py", line 440, in open
req = Request(fullurl, data)
File "C:\Python34\lib\urllib\request.py", line 258, in __init__
self.full_url = url
File "C:\Python34\lib\urllib\request.py", line 284, in full_url
self._parse()
File "C:\Python34\lib\urllib\request.py", line 313, in _parse
raise ValueError("unknown url type: %r" % self.full_url)
ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.jpg'

复制代码

有是这样的报错我也不知道怎么回事print可以打印出来可是就是保存不了

$DIM · 发表于 2017-10-23 17:27:49

本帖最后由 $DIM 于 2017-10-23 17:35 编辑

梦想一事无成发表于 2017-10-23 17:21
有是这样的报错我也不知道怎么回事print可以打印出来可是就是保存不了

ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.j

url //前面少了https:

完整的：https://wx3.....

梦想一事无成 · 发表于 2017-10-23 17:39:58

本帖最后由梦想一事无成于 2017-10-23 17:41 编辑

$DIM 发表于 2017-10-23 17:27
ValueError: unknown url type: '//wx3.sinaimg.cn/mw600/bfa8123ely1fkhmdg6fzcj21kw11zq9m.j

url ...

好了可以保存了但是保存后每个文件夹中就有一个相同名字的文件夹，这是不是翻页的结果，

$DIM · 发表于 2017-10-23 17:55:12

梦想一事无成发表于 2017-10-23 17:39
好了可以保存了但是保存后每个文件夹中就有一个相同名字的文件夹，这是不是翻页的结果，

目测是循环创建了文件夹

梦想一事无成 · 发表于 2017-10-23 18:10:30

$DIM 发表于 2017-10-23 17:55
目测是循环创建了文件夹

感谢你对我的帮助

账号		自动登录	找回密码
密码			立即注册