dabinge 发表于 2021-3-28 16:42:21

爬虫爬取图片打不开

import requests
import re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?>'
img_src =re.findall(patern,response)
print(img_src)
for src in img_src:
    count_name+=1
    img_file = requests.get(url,headers).content
    with open('./%s.gif' % count_name,'wb')as f:
      f.write(img_file)
      print('<%s.gif 下载成功! >'%count_name)



这个是写的爬虫代码,但是图片下载了,却是显示无法打开这文件,请问大佬该如何解决

suchocolate 发表于 2021-3-28 17:08:34

本帖最后由 suchocolate 于 2021-3-28 17:11 编辑

img_file = requests.get(src,headers=headers).content

我尝试写的:import requests
import re

def main():
    counter = 1
    url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}
    r = requests.get(url, headers=headers)
    result = re.findall(r'src="(.*?\.gif)"', r.text)
    for image in result:
      r = requests.get(image, headers=headers)
      pic_name = image.split('/')[-1]
      with open(pic_name, 'wb') as f:
            f.write(r.content)
            print(f'{pic_name}下载完成, 已下载{counter}个图。')
            counter += 1


if __name__ == '__main__':
    main()

dabinge 发表于 2021-3-28 19:23:49

suchocolate 发表于 2021-3-28 17:08
我尝试写的:

大佬,主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里

z5560636 发表于 2021-3-28 19:43:49

错了2个地方,正则表达式,和url 的参数错误,修改好后的源码

import requests
import re
url = 'http://www.bbsnet.com/xiongmaoren-18.htm'
count_name=0
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url,headers=headers).text
patern = '<img .*? src="(.*?)" .*?>                #1
img_src =re.findall(patern,response)
print(img_src)
for src in img_src:                #2
    count_name+=1
    img_file = requests.get(src,headers).content#3
    with open('./%s.gif' % count_name,'wb')as f:
      f.write(img_file)
      print('<%s.gif 下载成功! >'%count_name)

suchocolate 发表于 2021-3-28 20:07:23

dabinge 发表于 2021-3-28 19:23
大佬,主要是我想知道我那里是为啥爬不出的。。。。我想知道我错在哪里

我写了啊

dabinge 发表于 2021-3-28 20:18:58

suchocolate 发表于 2021-3-28 20:07
我写了啊

哦哦,我没看到。。。。

dabinge 发表于 2021-3-28 20:20:05

z5560636 发表于 2021-3-28 19:43
错了2个地方,正则表达式,和url 的参数错误,修改好后的源码

请问大佬正则表达式哪里有问题???

z5560636 发表于 2021-3-28 20:22:23

dabinge 发表于 2021-3-28 20:20
请问大佬正则表达式哪里有问题???

提取错误了,你自己去纠正一下。
页: [1]
查看完整版本: 爬虫爬取图片打不开