爬虫爬取图片打不开

dabinge · 发表于 2021-3-28 16:42:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?>'
img_src =re.findall(patern,response)
print(img_src)
for src in img_src:
count_name+=1
img_file = requests.get(url,headers).content
with open('./%s.gif' % count_name,'wb')as f:
f.write(img_file)
print('<%s.gif 下载成功! >'%count_name)

这个是写的爬虫代码，但是图片下载了，却是显示无法打开这文件，请问大佬该如何解决

suchocolate · 发表于 2021-3-28 17:08:34

本帖最后由 suchocolate 于 2021-3-28 17:11 编辑

img_file = requests.get(src,headers=headers).content

复制代码

我尝试写的：

import requests
import re
def main():
counter = 1
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}
r = requests.get(url, headers=headers)
result = re.findall(r'src="(.*?\.gif)"', r.text)
for image in result:
r = requests.get(image, headers=headers)
pic_name = image.split('/')[-1]
with open(pic_name, 'wb') as f:
f.write(r.content)
print(f'{pic_name}下载完成, 已下载{counter}个图。')
counter += 1
if __name__ == '__main__':
main()

复制代码

dabinge · 发表于 2021-3-28 19:23:49

suchocolate 发表于 2021-3-28 17:08
我尝试写的：

大佬，主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里

z5560636 · 发表于 2021-3-28 19:43:49

错了2个地方，正则表达式，和url 的参数错误，修改好后的源码

import requests
import re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?> #1
img_src =re.findall(patern,response)
print(img_src)
for src in img_src[1:-1]: #2
count_name+=1
img_file = requests.get(src,headers).content #3
with open('./%s.gif' % count_name,'wb')as f:
f.write(img_file)
print('<%s.gif 下载成功! >'%count_name)

复制代码

suchocolate · 发表于 2021-3-28 20:07:23

dabinge 发表于 2021-3-28 19:23
大佬，主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里

我写了啊

dabinge · 发表于 2021-3-28 20:18:58

suchocolate 发表于 2021-3-28 20:07
我写了啊

哦哦，我没看到。。。。

dabinge · 发表于 2021-3-28 20:20:05

z5560636 发表于 2021-3-28 19:43
错了2个地方，正则表达式，和url 的参数错误，修改好后的源码

请问大佬正则表达式哪里有问题？？？

z5560636 · 发表于 2021-3-28 20:22:23

dabinge 发表于 2021-3-28 20:20
请问大佬正则表达式哪里有问题？？？

提取错误了，你自己去纠正一下。

账号		自动登录	找回密码
密码			立即注册

爬虫爬取图片打不开

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块