鱼C论坛

 找回密码
 立即注册
查看: 1940|回复: 3

[已解决]关于百度首页图片爬虫

[复制链接]
发表于 2021-5-9 14:42:55 | 显示全部楼层 |阅读模式
40鱼币
实现访问百度首页,并将其首页页面中加载的所有png格式的图片存储到本地。

我想知道该如何用代码来实现这样的功能,回帖请附上思路或伪代码
最佳答案
2021-5-9 14:42:56

  1. import requests
  2. import re


  3. def main():
  4.     url = 'https://www.baidu.com'
  5.     headers = {'user-agent': 'firefox'}
  6.     r = requests.get(url, headers=headers)
  7.     r.encoding = 'utf-8'
  8.     pics = re.findall(r'src=\'(.*?\.png)\'', r.text)    # 正则拿url
  9.     for item in pics:
  10.         if not item.startswith('http'):
  11.             item = 'http:' + item    #url没有以http或https开头的加上http
  12.         r = requests.get(item, headers=headers)
  13.         pic_name = item.split('/')[-1]   # 图片名就用url里的名称
  14.         with open(pic_name, 'wb') as f:
  15.             f.write(r.content)


  16. if __name__ == '__main__':
  17.     main()

复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-9 14:42:56 | 显示全部楼层    本楼为最佳答案   

  1. import requests
  2. import re


  3. def main():
  4.     url = 'https://www.baidu.com'
  5.     headers = {'user-agent': 'firefox'}
  6.     r = requests.get(url, headers=headers)
  7.     r.encoding = 'utf-8'
  8.     pics = re.findall(r'src=\'(.*?\.png)\'', r.text)    # 正则拿url
  9.     for item in pics:
  10.         if not item.startswith('http'):
  11.             item = 'http:' + item    #url没有以http或https开头的加上http
  12.         r = requests.get(item, headers=headers)
  13.         pic_name = item.split('/')[-1]   # 图片名就用url里的名称
  14.         with open(pic_name, 'wb') as f:
  15.             f.write(r.content)


  16. if __name__ == '__main__':
  17.     main()

复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-9 14:47:50 | 显示全部楼层
www.baidu.com这个里的所有图片?
满足以.png为结尾的都get然后保存
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-28 17:19:50 | 显示全部楼层
qq
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-11 13:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表