关于百度首页图片爬虫
实现访问百度首页,并将其首页页面中加载的所有png格式的图片存储到本地。我想知道该如何用代码来实现这样的功能,回帖请附上思路或伪代码!
import requests
import re
def main():
url = 'https://www.baidu.com'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
r.encoding = 'utf-8'
pics = re.findall(r'src=\'(.*?\.png)\'', r.text) # 正则拿url
for item in pics:
if not item.startswith('http'):
item = 'http:' + item #url没有以http或https开头的加上http
r = requests.get(item, headers=headers)
pic_name = item.split('/')[-1] # 图片名就用url里的名称
with open(pic_name, 'wb') as f:
f.write(r.content)
if __name__ == '__main__':
main()
www.baidu.com这个里的所有图片?
满足以.png为结尾的都get然后保存 qq
页:
[1]