鱼C论坛

 找回密码
 立即注册
查看: 5120|回复: 7

[技术交流] 爬取妹子图片(福利福利!!!)附上代码

[复制链接]
发表于 2019-1-27 01:01:54 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
这里使用xpath爬取妹子图(https://www.mzitu.com/mm/page/2/
附上代码
  1. import requests
  2. from lxml import etree
  3. import os

  4. #获取每页的地址
  5. def get_url(page):
  6.     url = 'https://www.mzitu.com/mm/page/' + str(page) + '/'
  7.     return url

  8. def url_open(url):
  9.     headers = {
  10.         'User-Agent'  :'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/601.7.7 (KHTML, like Gecko) Version/9.1.2 Safari/601.7.7',
  11.         'Referer' :'https://www.mzitu.com/mm/'}
  12.     res = requests.get(url,headers = headers)
  13.     return res

  14. #使用xpath查找图片地址
  15. def find_img(res):
  16.     html = etree.HTML(res.text)
  17.     result = html.xpath('//ul[@id="pins"]//li//a//img/@data-original')
  18.     return result

  19. #使用xpath查找图片名称
  20. def find_name(res):
  21.     html = etree.HTML(res.text)
  22.     result = html.xpath('//ul[@id="pins"]//li//a//img/@alt')
  23.     return result

  24. def main(pages):
  25.     os.mkdir('妹子')
  26.     os.chdir('妹子')
  27.     for each in range(1,pages):
  28.         url = get_url(each)
  29.         res = url_open(url)
  30.         img_list = find_img(res)
  31.         img_name = find_name(res)
  32.         for i in range(len(img_list)):
  33.             img = url_open(img_list[i])
  34.             with open(img_name[i]+'.jpg','wb') as f:
  35.                 f.write(img.content)
  36.    
  37. if '__main__' == __name__:
  38.     temp = int(input('请输入要爬取的页数:'))
  39.     pages = temp+1
  40.     main(pages)

复制代码
屏幕快照 2019-01-27 00.51.52.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-1-29 09:40:57 | 显示全部楼层
顶个  貌似会火
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-3 16:45:23 From FishC Mobile | 显示全部楼层
网址都打不开
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-5 20:07:17 From FishC Mobile | 显示全部楼层
牛批
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-4-13 18:06:32 | 显示全部楼层
这个网站厉害了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-14 10:00:34 | 显示全部楼层
这才是学习python爬虫的初衷!!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2020-10-24 17:31:24 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-10-24 22:27:05 | 显示全部楼层
别人写好的代码,我是怎么利用,python软件已经安装
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-28 18:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表