鱼C论坛

 找回密码
 立即注册
查看: 1715|回复: 0

爬虫爬取图片求助

[复制链接]
发表于 2020-10-5 10:34:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
求助下大佬们 我的代码能正常运行 但是有时爬着爬着就不动了 是我电脑的问题吗 还是代码哪里出问题了呢 试了好几次 只有两次是到最后了 最近一次才下了三个就不动了

enter start page:1
enter end page:1
正在下载第1页图片
ZZC6Q772XFYKTK71.jpg 下载成功!!!
T2SQ9T7X04U1JAML.jpg 下载成功!!!
3QFEQKZJVGG7VD0C.jpg 下载成功!!!


  1. import requests
  2. import re
  3. import os
  4. if __name__ == "__main__":
  5.      url = 'https://www.qiushibaike.com/imgrank/page/%d/'
  6.      headers = {
  7.          'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  8.      }
  9.      #指定起始也结束页码
  10.      page_start = int(input('enter start page:'))
  11.      page_end = int(input('enter end page:'))
  12.      #创建文件夹
  13.      if not os.path.exists('./images'):
  14.          os.mkdir('./images')
  15.      #循环解析且下载指定页码中的图片数据
  16.      for page in range(page_start,page_end+1):
  17.          print('正在下载第%d页图片'%page)
  18.          new_url = format(url % page)
  19.          response = requests.get(url=new_url,headers=headers).text
  20.          #解析response中的图片链接
  21.          e = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
  22.          image_urls = re.findall(e,response,re.S)
  23.          # 循环下载该页码下所有的图片数据
  24.          for image_url in image_urls:
  25.              image_url = 'https:' + image_url
  26.              image_name = image_url.split('/')[-1]
  27.              image_path = './images/' + image_name
  28.              image_data = requests.get(url=image_url, headers=headers).content
  29.              with open(image_path, 'wb') as fp:
  30.                  fp.write(image_data)
  31.                  print(image_name, '下载成功!!!')
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-28 00:50

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表