[已解决]爬捧腹网爬的图片不会动

慎为 · 发表于 2017-6-24 22:28:07

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request

import re

def page(pg):  #网页

url = 'https://www.pengfu.com/index_%s.html'%pg

req = urllib.request.Request(url)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36')

html = urllib.request.urlopen(req).read().decode('utf-8')

#print(html)

return html

def title(html): #标题

reg = re.compile(r'<h1 class="dp-b"><a href=".*?" target="_blank">(.*?)</a>')

item = re.findall(reg,html)

#for i in item:

      #print(i)



return item

def content(html): # 图片

reg = re.compile(r'<img src="(.*?)" width=')

item = re.findall(reg,html)

return item

def mm():          #主函数

for i in range(20,25):

      html = page(i)

      title_list = title(html)

      content_list = content(html)

      for k,z in zip(title_list,content_list):



         print(k,z)

         path = 'D:\PYPY,,\捧腹\%s.gif'%(k)

         urllib.request.urlretrieve(z,path)

if __name__ =='__main__':

mm()



复制代码

最佳答案

月排行榜 / 总排行榜

shuofxz

2017-6-24 23:06:14

你看你代码打印出来的图片地址，全都是jpg png结尾的，这些不是动图的后缀，最后保存下来，虽然你强制把后缀改为了gif，但其本身并不是动图，所以就不会动了

不过奇怪的是，用这种方法写出来的代码看上去是没问题的，但抓取到的html文件中图片地址好像并不太对，真实的地址是这个
搜狗截图20170624230239.jpg

但抓取到的却是这个

不知道是不是网站对爬虫有什么限制，或者是什么其他因素导致了这个问题的出现

现在我还没找到比较好的方法解决，暂时只能想到一个暴力方法
仔细比对这两个地址，除了后缀名不同外，中间还有一个thumb替换为了origin，那么我在程序中把这两个地方改掉就能正常下载动图了

def mm(): # 主函数
for i in range(1, 3):
html = page(i)
title_list = title(html)
content_list = content(html)
for k, z in zip(title_list, content_list):
print(k, z)
try:
z = z.replace("thumb", "origin")
z = z.replace(".jpg", ".gif")
path = 'D:\PY\捧腹\%s.gif' % (k)
urllib.request.urlretrieve(z, path)
except:
pass

复制代码

跳转到最佳答案楼层

慎为 · 发表于 2017-6-24 22:34:13

要复制的人改一下保存的的路径（41）

shuofxz · 发表于 2017-6-24 23:06:14

这个最佳答案由 shuofxz 给出，感谢 shuofxz 的回答。

单击隐藏图章

你看你代码打印出来的图片地址，全都是jpg png结尾的，这些不是动图的后缀，最后保存下来，虽然你强制把后缀改为了gif，但其本身并不是动图，所以就不会动了

不过奇怪的是，用这种方法写出来的代码看上去是没问题的，但抓取到的html文件中图片地址好像并不太对，真实的地址是这个
搜狗截图20170624230239.jpg

但抓取到的却是这个

不知道是不是网站对爬虫有什么限制，或者是什么其他因素导致了这个问题的出现

现在我还没找到比较好的方法解决，暂时只能想到一个暴力方法
仔细比对这两个地址，除了后缀名不同外，中间还有一个thumb替换为了origin，那么我在程序中把这两个地方改掉就能正常下载动图了

def mm(): # 主函数
for i in range(1, 3):
html = page(i)
title_list = title(html)
content_list = content(html)
for k, z in zip(title_list, content_list):
print(k, z)
try:
z = z.replace("thumb", "origin")
z = z.replace(".jpg", ".gif")
path = 'D:\PY\捧腹\%s.gif' % (k)
urllib.request.urlretrieve(z, path)
except:
pass

复制代码

慎为 · 发表于 2017-6-25 13:34:56

shuofxz 发表于 2017-6-24 23:06
你看你代码打印出来的图片地址，全都是jpg png结尾的，这些不是动图的后缀，最后保存下来，虽然你强制把后 ...

看了下，下载的地址确实不一样。你帮我修改的代码第10行的转换不要，不然只能抓到动图，静图抓不到。
还有就是我发现有些图片和标题不一致，不知道有没有解决方案。
谢谢！

shuofxz · 发表于 2017-6-25 16:18:57

慎为发表于 2017-6-25 13:34
看了下，下载的地址确实不一样。你帮我修改的代码第10行的转换不要，不然只能抓到动图，静图抓不到。
还 ...

href部分的链接，可以把相应的图片网页打开，那么你可以尝试在这个网址上抓取 [标题] 和 [图片地址]

账号		自动登录	找回密码
密码			立即注册

[已解决]爬捧腹网爬的图片不会动

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块