爬虫爬取图片打不开
import requestsimport re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?>'
img_src =re.findall(patern,response)
print(img_src)
for src in img_src:
count_name+=1
img_file = requests.get(url,headers).content
with open('./%s.gif' % count_name,'wb')as f:
f.write(img_file)
print('<%s.gif 下载成功! >'%count_name)
这个是写的爬虫代码,但是图片下载了,却是显示无法打开这文件,请问大佬该如何解决 本帖最后由 suchocolate 于 2021-3-28 17:11 编辑
img_file = requests.get(src,headers=headers).content
我尝试写的:import requests
import re
def main():
counter = 1
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}
r = requests.get(url, headers=headers)
result = re.findall(r'src="(.*?\.gif)"', r.text)
for image in result:
r = requests.get(image, headers=headers)
pic_name = image.split('/')[-1]
with open(pic_name, 'wb') as f:
f.write(r.content)
print(f'{pic_name}下载完成, 已下载{counter}个图。')
counter += 1
if __name__ == '__main__':
main() suchocolate 发表于 2021-3-28 17:08
我尝试写的:
大佬,主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里 错了2个地方,正则表达式,和url 的参数错误,修改好后的源码
import requests
import re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?> #1
img_src =re.findall(patern,response)
print(img_src)
for src in img_src: #2
count_name+=1
img_file = requests.get(src,headers).content#3
with open('./%s.gif' % count_name,'wb')as f:
f.write(img_file)
print('<%s.gif 下载成功! >'%count_name) dabinge 发表于 2021-3-28 19:23
大佬,主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里
我写了啊 suchocolate 发表于 2021-3-28 20:07
我写了啊
哦哦,我没看到。。。。
z5560636 发表于 2021-3-28 19:43
错了2个地方,正则表达式,和url 的参数错误,修改好后的源码
请问大佬正则表达式哪里有问题???
dabinge 发表于 2021-3-28 20:20
请问大佬正则表达式哪里有问题???
提取错误了,你自己去纠正一下。
页:
[1]