tianyamingyue 发表于 2020-5-25 21:19:44

爬图爬出的图片打不开

import re
import requests
import os
from bs4 import BeautifulSoup as bs
header= {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0',
                     'Referer':'https://www.mzitu.com/japan/'}
a='http://info.xitek.com/galleries/'
b=requests.get(a, headers=header).content.decode('utf-8')
print(b)
d=re.findall(r'//info.xitek.com/.+?/202005/\d{2}-\d{6}\.html',b)
i=5
for each in d:
      h="http:"+each
      m=requests.get(h,headers=header).content.decode('utf-8')
      print(m)
      n=re.findall(r'/uploads/allimg/\d{6}/\d{2,4}-.{8,12}\.jpg',m)
      print(n)
      i+=1
      z=1
      for x in n:
            q='http://info.xitek.com'+x
            print(q)
            y=requests.get(q,headers=header).content
            with open('e:\ '+str(i)+'-'+str(z)+'.jpg','wb')as f:
                  f.write(y)
                  z+=1
这是我练习爬图爬色影无忌网站的一段代码,能正常运行,也能下载图片,但就是下载的东西打不开,用迅雷检查了图片地址是没问题的迅雷下的能看。高手帮我看看是啥问题?

Twilight6 发表于 2020-5-25 21:20:48

先收藏了 网址{:10_256:}

tianyamingyue 发表于 2020-5-25 21:22:58

这位兄台误会了吧,这是一个正经的摄影网站。

小甲鱼的铁粉 发表于 2020-5-25 21:42:52

Twilight6 发表于 2020-5-25 21:20
先收藏了 网址

一看就是小甲鱼教出来的{:5_97:}

Twilight6 发表于 2020-5-25 22:04:33

本帖最后由 Twilight6 于 2020-5-25 22:07 编辑

tianyamingyue 发表于 2020-5-25 21:22
这位兄台误会了吧,这是一个正经的摄影网站。

兄台我好无语 你为什么要弄一个 mizitu 的Referer...

是不是看了我的帖子....哈哈哈哈

Twilight6 发表于 2020-5-25 22:15:03

把:'Referer':'https://www.mzitu.com/japan/'
改成:'Referer':'http://info.xitek.com/galleries/'

Twilight6 发表于 2020-5-26 00:22:37

小甲鱼的铁粉 发表于 2020-5-25 21:42
一看就是小甲鱼教出来的

哈哈对

tianyamingyue 发表于 2020-5-26 20:16:24

Twilight6 发表于 2020-5-25 22:15
把:
改成:

问题解决了,但我还想问一下,这个‘referer’到底起什么作用。我只认为是一个header做隐藏的。所以每次都复制粘贴。下别的网站也用这个头,没问题。为啥这个网站出问题了。

Twilight6 发表于 2020-5-26 20:17:29

tianyamingyue 发表于 2020-5-26 20:16
问题解决了,但我还想问一下,这个‘referer’到底起什么作用。我只认为是一个header做隐藏的。所以每次 ...

有的网站不验证Referer呀,需要验证这个就要填

Twilight6 发表于 2020-5-26 20:22:35

tianyamingyue 发表于 2020-5-26 20:16
问题解决了,但我还想问一下,这个‘referer’到底起什么作用。我只认为是一个header做隐藏的。所以每次 ...

Referer 主要用来表示从哪儿链接到当前的网页,如果你是爬虫没带上这个,对面服务器就找不到你是从哪里连接过来的就认为你是机器人,然后被反爬
页: [1]
查看完整版本: 爬图爬出的图片打不开