1140813598 发表于 2021-5-9 14:42:55

关于百度首页图片爬虫

实现访问百度首页,并将其首页页面中加载的所有png格式的图片存储到本地。

我想知道该如何用代码来实现这样的功能,回帖请附上思路或伪代码!

suchocolate 发表于 2021-5-9 14:42:56


import requests
import re


def main():
    url = 'https://www.baidu.com'
    headers = {'user-agent': 'firefox'}
    r = requests.get(url, headers=headers)
    r.encoding = 'utf-8'
    pics = re.findall(r'src=\'(.*?\.png)\'', r.text)    # 正则拿url
    for item in pics:
      if not item.startswith('http'):
            item = 'http:' + item    #url没有以http或https开头的加上http
      r = requests.get(item, headers=headers)
      pic_name = item.split('/')[-1]   # 图片名就用url里的名称
      with open(pic_name, 'wb') as f:
            f.write(r.content)


if __name__ == '__main__':
    main()

南归 发表于 2021-5-9 14:47:50

www.baidu.com这个里的所有图片?
满足以.png为结尾的都get然后保存

sadfnio 发表于 2021-5-28 17:19:50

qq
页: [1]
查看完整版本: 关于百度首页图片爬虫