056轮一只爬虫的自我修养4：OOXX 程序运行正常，但是文件夹里未下载到图片

木鱼加小鱼 · 发表于 2017-12-29 16:54:26

您需要登录才可以下载或查看，没有账号？立即注册

x

程序运行正常，但是文件夹里没有下载图片，求大神看看

ba21 · 发表于 2017-12-29 17:32:09

图片地址已加密。再说了，你都是按部就班，没有查看源代码分析。换个网站测试

ド゛゜范 · 发表于 2017-12-31 02:29:43

换个网站

zjd_9 · 发表于 2018-1-15 20:03:51

ba21 发表于 2017-12-29 17:32
图片地址已加密。再说了，你都是按部就班，没有查看源代码分析。换个网站测试

请问，像这种网站加密处理后，这种情况就无法爬取了吗？或者说有什么别的方法？

°蓝鲤歌蓝 · 发表于 2018-1-15 21:35:05

zjd_9 发表于 2018-1-15 20:03
请问，像这种网站加密处理后，这种情况就无法爬取了吗？或者说有什么别的方法？

办法肯定是有的，不过你换个网站吧，那都是以后的事了。

°蓝鲤歌蓝 · 发表于 2018-1-15 21:36:50

°蓝鲤歌蓝发表于 2018-1-15 21:35
办法肯定是有的，不过你换个网站吧，那都是以后的事了。

http://www.meizitu.com/ 提供一个网址

ba21 · 发表于 2018-1-15 22:44:21

zjd_9 发表于 2018-1-15 20:03
请问，像这种网站加密处理后，这种情况就无法爬取了吗？或者说有什么别的方法？

别的方法当然有。不过建议你换个能正常爬的网站

杂草 · 发表于 2018-1-16 08:17:07

网站不是访问不了吗？楼主还可以程序正常运行？没出错吗？

cbs · 发表于 2018-1-18 12:46:34

图片地址格式变了，你还用原来的是find_img是找不到的，改一下

teribsandy · 发表于 2018-4-21 23:09:00

cbs 发表于 2018-1-18 12:46
图片地址格式变了，你还用原来的是find_img是找不到的，改一下

import os
import urllib2
import random
def url_open(url):
request=urllib2.Request(url)
request.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')
'''
如果使用代理的话，下载的不是妹子图，而是乱七八糟的图片
proxies=['60.190.199.68:808','183.159.82.206:18118','222.186.45.127:55336']
proxy=random.choice(proxies)
proxy_support=urllib2.ProxyHandler({'https':proxy})
opener=urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
'''
response=urllib2.urlopen(request)
html=response.read()
print url
return html
def get_pagenumber(url):
html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
return html[a:b]
def find_image(url):
html=url_open(url).decode('utf-8')
image_address=[]
a=html.find('img src=')
while a!=-1:
b=html.find('.jpg',a,a+255)
if b != -1:
image_address.append(html[a+9:b+4])
else:
b=a+9
a=html.find('img src=',b)
return image_address
def save_image(folder,image_address):
for each in image_address:
filename=each.split('/')[-1]
with open(filename,'wb') as f:
image=url_open(each)
f.write(image)
def download_mm(folder='OOXX',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/ooxx'
page_num=int(get_pagenumber(url))
for i in range(pages):
page_num-=1
page_url=url+'/page-'+str(page_num)+'#comments'
image_address=find_image(page_url)
save_image(folder,image_address)
if __name__=='__main__':
download_mm()

复制代码

和楼主的问题一样，代码正常执行，但OOXX文件为空。图片地址的格式还是一样的，没有变啊，感觉问题出现在find_image()方法上，image_address这个列表没有成功存放进图片的地址。但不知道为什么？还是说find_image()方法也是对的，原因是图片地址加密了？求大神解答～～～～

liubosong · 发表于 2018-4-24 00:04:14

相同的问题

有理想的咸鱼_超 · 发表于 2018-10-9 13:48:10

相同的问题应该是加密了

有理想的咸鱼_超 · 发表于 2018-10-9 13:48:57

teribsandy 发表于 2018-4-21 23:09
和楼主的问题一样，代码正常执行，但OOXX文件为空。图片地址的格式还是一样的，没有变啊，感觉问 ...

请问你解决了吗是图片加密了的原因吗

账号		自动登录	找回密码
密码			立即注册