鱼C论坛

 找回密码
 立即注册
查看: 12094|回复: 187

[作品展示] 复习一下妹子图(啊不对)爬虫

  [复制链接]
发表于 2019-6-9 21:51:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
wwsl.png
wwsl1.png

回复可直接复制代码
  1. from bs4 import BeautifulSoup
  2. import requests
  3. import os

  4. # 使用说明 将py文件放在要保存图包的目录下运行
  5. # number别太贪心 目前主页24个 我也就设置最大24

  6. # 源url number确认要整几个图包
  7. url0 = 'https://www.mzitu.com'
  8. headers={
  9.     'referer': 'https://www.mzitu.com/188045',
  10.     'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Mobile Safari/537.36'
  11.     }
  12. number = int(input('how many:(max=24)'))
  13. while number > 24:
  14.     number = int(input('how many:(max=24)'))

  15. # 打开主页
  16. res0 = requests.get(url0,headers=headers)
  17. soup0 = BeautifulSoup(res0.text,'lxml')

  18. # 正式开整
  19. for h in range(number):
  20.     url = soup0.find('div', class_='main').find('div', class_='postlist')\
  21.           .find_all('li')[h].a['href']
  22.     res = requests.get(url,headers=headers)
  23.     soup = BeautifulSoup(res.text,'lxml')
  24.     target_url = soup.find('div',class_='main-image').img['src']
  25.     # filename = target_url.split(r'.net/')[-1]
  26.     # 懒得处理filename里的/了 直接1 2 3 4命名图片完事
  27.     pages = soup.find('div',class_='pagenavi').find_all('a')[-2].span.text
  28.     title = soup.find('div',class_='content').find('h2',class_='main-title').text

  29.     print('正在搞第{}个'.format(h+1))
  30.     if title not in os.listdir():
  31.         os.mkdir(title)
  32.     os.chdir(title)

  33.     for i in range(int(pages)):
  34.         url1 = url + r'/' + str(i+1)
  35.         res1 = requests.get(url1,headers=headers)
  36.         soup = BeautifulSoup(res1.text,'lxml')
  37.         target_url = soup.find('div',class_='main-image').img['src']
  38.         res1 = requests.get(target_url,headers=headers)
  39.         with open(str(i+1)+r'.jpg', 'wb') as f:
  40.             f.write(res1.content)
  41.     os.chdir('..')
  42.    
  43. # 我完事了 你们呢



复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-9 21:58:29 | 显示全部楼层
好东西
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-10 09:48:09 | 显示全部楼层
支持一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-10 13:40:00 | 显示全部楼层
膜拜大神
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 09:15:22 | 显示全部楼层
哈哈
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 09:24:31 | 显示全部楼层
感谢分享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 10:01:04 | 显示全部楼层
优秀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 11:34:18 | 显示全部楼层
艺术
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 12:03:42 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 12:25:49 | 显示全部楼层

膜拜大神
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 12:26:17 | 显示全部楼层
本帖最后由 imcampbell 于 2019-6-11 12:29 编辑

运行出错了,是不是我的Python少了东西?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2019-6-11 13:36:58 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 14:13:41 | 显示全部楼层
爬虫想学
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 14:25:06 | 显示全部楼层
还有没其他的有图可以下的站点推荐的?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 14:50:19 | 显示全部楼层
sha
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 14:56:22 | 显示全部楼层
精华
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 15:02:50 | 显示全部楼层
学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 15:36:00 | 显示全部楼层
学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-11 18:45:28 | 显示全部楼层
666666666666666666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-6-11 19:29:26 | 显示全部楼层
imcampbell 发表于 2019-6-11 12:26
运行出错了,是不是我的Python少了东西?

贴个报错信息啊 目测是没装requests bs4
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 22:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表