如何爬虫获取网页中特定的图片

cxckb · 发表于 2018-10-17 23:10:01

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

from bs4 import BeautifulSoup
import requests,os
def get_img(path,url,name):
h =  requests.get(url)
name = '{0}.jpg'.format(name)
img  =  os.path.join(path,name)
f  =  open(img,'wb')
f.write(h.content)
f.close()
for key in range(1,14):
url = 'http://www.1ppt.com/xiazai/ppt_xiazai_{0}.html'.format(key)
html = requests.get(url)
html.encoding = 'gbk'
soup = BeautifulSoup(html.text)
for i in soup.body.find('ul',class_="tplist").findAll('li'):
      name = i.find('img')['alt']
      listR = []
      for j in i.span.strings:
         listR.append(j)
      types = listR[0]
      num = listR[-1]
      pic = i.find('img')['src']
      path = r'C:\Users\cxckb\Desktop\网页'
      picName = i.find('img')['alt']
      get_img(path,pic,picName)
print([key,name,types,int(num.strip('：').strip('次'))])
我想获取这个网站中下载次数最多的那个图片，想不出改用什么办法。。所以想请教论坛里的大佬们。。

songrui1021 · 发表于 2018-10-17 23:40:02

也想学习，不是站主如何知道哪个点击量高呢？

RIXO · 发表于 2018-10-18 01:41:18

找了半天怎么用BeautifulSoup 帮你写了个获取下载次数，和链接的方法，具体想要什么自己再调

import requests
from bs4 import BeautifulSoup
def has_class_but_no_id(tag):
return tag.name == 'span' and tag.contents[0].name == 'a'
url = 'http://www.1ppt.com/xiazai/ppt_xiazai_1.html'
r = requests.get(url)
r.encoding = 'gb2312'
html = r.text
soup = BeautifulSoup(html, 'lxml')
a = soup.find_all(has_class_but_no_id)
for i in a:
print(i.contents)
print(i.contents[-1].strip('：次'))

复制代码

塔利班 · 发表于 2018-10-18 08:37:06

import requests
from bs4 import BeautifulSoup
def has_class_but_no_id(tag):
return tag.name == 'span' and tag.contents[0].name == 'a'
result=[]
for key in range(1,14):
url = 'http://www.1ppt.com/xiazai/ppt_xiazai_{0}.html'.format(key)
r = requests.get(url)
r.encoding = 'gb2312'
html = r.text
soup = BeautifulSoup(html, 'lxml')
a = soup.find_all(has_class_but_no_id)
result=[]
for i in a:
result.append((i.parent.a.img['src'],i.contents[-1].strip('：次')))
result.sort(key=lambda x:str(x[1]),reverse=True)
result=result[:1]
filename=result[0][0].split('/')[-1]
im=requests.get(result[0][0])
with open(filename,'wb') as f:
f.write(im.content)

复制代码

wongyusing · 发表于 2018-10-18 09:31:23

电脑不在身边，没法测试，
说一个需要注意的地方，
解析gbk编码的网站，少用bs4。
容易缺斤短两，用pq吧，解析式一样，写法稍微不一样

cxckb · 发表于 2018-10-18 13:30:17

塔利班发表于 2018-10-18 08:37

谢谢！我学习下

cxckb · 发表于 2018-10-18 13:31:29

RIXO 发表于 2018-10-18 01:41
找了半天怎么用BeautifulSoup 帮你写了个获取下载次数，和链接的方法，具体想要什么自己再调

十分感谢

cxckb · 发表于 2018-10-18 13:32:17

wongyusing 发表于 2018-10-18 09:31
电脑不在身边，没法测试，
说一个需要注意的地方，
解析gbk编码的网站，少用bs4。

好的，谢谢提醒

账号		自动登录	找回密码
密码			立即注册

如何爬虫获取网页中特定的图片

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块