爬图爬出的图片打不开
import reimport requests
import os
from bs4 import BeautifulSoup as bs
header= {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0',
'Referer':'https://www.mzitu.com/japan/'}
a='http://info.xitek.com/galleries/'
b=requests.get(a, headers=header).content.decode('utf-8')
print(b)
d=re.findall(r'//info.xitek.com/.+?/202005/\d{2}-\d{6}\.html',b)
i=5
for each in d:
h="http:"+each
m=requests.get(h,headers=header).content.decode('utf-8')
print(m)
n=re.findall(r'/uploads/allimg/\d{6}/\d{2,4}-.{8,12}\.jpg',m)
print(n)
i+=1
z=1
for x in n:
q='http://info.xitek.com'+x
print(q)
y=requests.get(q,headers=header).content
with open('e:\ '+str(i)+'-'+str(z)+'.jpg','wb')as f:
f.write(y)
z+=1
这是我练习爬图爬色影无忌网站的一段代码,能正常运行,也能下载图片,但就是下载的东西打不开,用迅雷检查了图片地址是没问题的迅雷下的能看。高手帮我看看是啥问题? 先收藏了 网址{:10_256:} 这位兄台误会了吧,这是一个正经的摄影网站。 Twilight6 发表于 2020-5-25 21:20
先收藏了 网址
一看就是小甲鱼教出来的{:5_97:} 本帖最后由 Twilight6 于 2020-5-25 22:07 编辑
tianyamingyue 发表于 2020-5-25 21:22
这位兄台误会了吧,这是一个正经的摄影网站。
兄台我好无语 你为什么要弄一个 mizitu 的Referer...
是不是看了我的帖子....哈哈哈哈 把:'Referer':'https://www.mzitu.com/japan/'
改成:'Referer':'http://info.xitek.com/galleries/'
小甲鱼的铁粉 发表于 2020-5-25 21:42
一看就是小甲鱼教出来的
哈哈对 Twilight6 发表于 2020-5-25 22:15
把:
改成:
问题解决了,但我还想问一下,这个‘referer’到底起什么作用。我只认为是一个header做隐藏的。所以每次都复制粘贴。下别的网站也用这个头,没问题。为啥这个网站出问题了。 tianyamingyue 发表于 2020-5-26 20:16
问题解决了,但我还想问一下,这个‘referer’到底起什么作用。我只认为是一个header做隐藏的。所以每次 ...
有的网站不验证Referer呀,需要验证这个就要填 tianyamingyue 发表于 2020-5-26 20:16
问题解决了,但我还想问一下,这个‘referer’到底起什么作用。我只认为是一个header做隐藏的。所以每次 ...
Referer 主要用来表示从哪儿链接到当前的网页,如果你是爬虫没带上这个,对面服务器就找不到你是从哪里连接过来的就认为你是机器人,然后被反爬
页:
[1]