关于百度首页图片爬虫,Python交流,编程语言专区,鱼C论坛

1140813598 发表于 2021-5-9 14:42:55

关于百度首页图片爬虫

实现访问百度首页，并将其首页页面中加载的所有png格式的图片存储到本地。

我想知道该如何用代码来实现这样的功能，回帖请附上思路或伪代码！

suchocolate 发表于 2021-5-9 14:42:56

import requests
import re

def main():
url = 'https://www.baidu.com'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
r.encoding = 'utf-8'
pics = re.findall(r'src=\'(.*?\.png)\'', r.text) # 正则拿url
for item in pics:
   if not item.startswith('http'):
         item = 'http:' + item #url没有以http或https开头的加上http
   r = requests.get(item, headers=headers)
   pic_name = item.split('/')[-1] # 图片名就用url里的名称
   with open(pic_name, 'wb') as f:
         f.write(r.content)

if __name__ == '__main__':
main()

南归发表于 2021-5-9 14:47:50

www.baidu.com这个里的所有图片?
满足以.png为结尾的都get然后保存

sadfnio 发表于 2021-5-28 17:19:50

页: [1]

鱼C论坛's Archiver

关于百度首页图片爬虫