鱼C论坛

 找回密码
 立即注册
查看: 1837|回复: 7

爬虫爬取图片打不开

[复制链接]
发表于 2021-3-28 16:42:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import requests
import re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?>'
img_src =re.findall(patern,response)
print(img_src)
for src in img_src:
    count_name+=1
    img_file = requests.get(url,headers).content
    with open('./%s.gif' % count_name,'wb')as f:
        f.write(img_file)
        print('<%s.gif 下载成功! >'%count_name)



这个是写的爬虫代码,但是图片下载了,却是显示无法打开这文件,请问大佬该如何解决
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-3-28 17:08:34 | 显示全部楼层
本帖最后由 suchocolate 于 2021-3-28 17:11 编辑
img_file = requests.get(src,headers=headers).content

我尝试写的:
import requests
import re

def main():
    counter = 1
    url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}
    r = requests.get(url, headers=headers)
    result = re.findall(r'src="(.*?\.gif)"', r.text)
    for image in result:
        r = requests.get(image, headers=headers)
        pic_name = image.split('/')[-1]
        with open(pic_name, 'wb') as f:
            f.write(r.content)
            print(f'{pic_name}下载完成, 已下载{counter}个图。')
            counter += 1


if __name__ == '__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-28 19:23:49 | 显示全部楼层

大佬,主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-28 19:43:49 | 显示全部楼层
错了2个地方,正则表达式,和url 的参数错误,修改好后的源码
import requests
import re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?>                #1
img_src =re.findall(patern,response)
print(img_src)
for src in img_src[1:-1]:                #2
    count_name+=1
    img_file = requests.get(src,headers).content  #3
    with open('./%s.gif' % count_name,'wb')as f:
        f.write(img_file)
        print('<%s.gif 下载成功! >'%count_name)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-28 20:07:23 | 显示全部楼层
dabinge 发表于 2021-3-28 19:23
大佬,主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里

我写了啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-28 20:18:58 | 显示全部楼层

哦哦,我没看到。。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-28 20:20:05 | 显示全部楼层
z5560636 发表于 2021-3-28 19:43
错了2个地方,正则表达式,和url 的参数错误,修改好后的源码

请问大佬正则表达式哪里有问题???
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-28 20:22:23 | 显示全部楼层
dabinge 发表于 2021-3-28 20:20
请问大佬正则表达式哪里有问题???

提取错误了,你自己去纠正一下。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-16 05:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表