爬虫下载下来的图片怎么变成二维码，但是链接可以用浏览器查看。用python下载就成了

caiheng2019 · 发表于 2019-7-31 22:18:51

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

这是代码

import urllib.request
import re
import os
import random
import time[img][/img]
#url='http://www.umei.cc/meinvtupian/meinvxiezhen/198202.htm'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
,'referer':'https://www.mm131.net/xinggan/2330_3.html','accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
,'authority':'www.mm131.net','path':'/xinggan/2330_4.html','accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'}
#url='http://www.umei.cc/meinvtupian/meinvxiezhen/198202_3.htm'[float=left][/float]
#for i in rang(2,10)
os.chdir('img')
for i in range(2,4):
number=i
url='https://www.mm131.net/xinggan/2330_'+str(number)+'.html'
html=urllib.request.Request(url,None,headers)
#html.add_header('user-agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','referer','https://www.mm131.net/xinggan/2330_3.html')
img_html=urllib.request.urlopen(html).read().decode(encoding='UTF-8',errors='ignore')
p=r'src="(https://img1.mm131.me/pic/2330/.*\.jpg)'
img_html1=re.findall(p,img_html)
print(img_html1)
for each in img_html1:
print(each)
file_name=each.split('/')[-1]
urllib.request.urlretrieve(each.replace(' ','%20'),file_name)

复制代码

下载的图片图片添加不了是不是被反扒机制弄了，用python下载的图片都是一张二维码

害怕型全嘲豪 · 发表于 2019-8-1 10:03:00

<a href='198202_2.htm'><img alt="可爱美丽俏佳人丰满白嫩卧室小清新唯美写真" alt="" src="http://i1.whymtj.com/uploads/tu/201907/9999/da86dadc50.jpg" /></a></p>
你要拿这个里面的 src

害怕型全嘲豪 · 发表于 2019-8-1 10:04:30

而且图片保存，要用二进制写入

caiheng2019 · 发表于 2019-8-3 15:49:34

害怕型全嘲豪发表于 2019-8-1 10:04
而且图片保存，要用二进制写入

我想在就试试

caiheng2019 · 发表于 2019-8-3 15:52:28

害怕型全嘲豪发表于 2019-8-1 10:04
而且图片保存，要用二进制写入

大哥用urllib.request.urlretrieve()这个函数怎么用二进制写入额不懂

害怕型全嘲豪 · 发表于 2019-8-12 17:41:09

caiheng2019 发表于 2019-8-3 15:52
大哥用urllib.request.urlretrieve()这个函数怎么用二进制写入额不懂

不推荐用urllib模块 , 推荐使用requests 模块 , requests的话 , res = requests.get() res.connect 就是二进制内容
写入的话可以用 with open(xxx.jpg,"wb") as f 的方式写入

傻纸 · 发表于 2019-8-12 21:24:10

这个问题就厉害了，有些网站有一个防盗链的，在headers里面用到一个 Referer，告诉服务器从哪个链接过来的，所以在代码上加上Referer就可以了。。我这边只是测试过加Referer和不加

import urllib.request
import re
import random
import time
import sys
import os
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
'Referer':'https://www.mm131.net/xinggan/',
}
os.makedirs("./img/")
os.chdir("./img")
for i in range(2,10):
number=i
url='https://www.mm131.net/xinggan/5074_'+str(number)+'.html'
html=urllib.request.Request(url=url,headers=headers)
img_html=urllib.request.urlopen(html).read().decode('gbk')
#print(img_html)
p=r'src="(https://img1.mm131.me/pic/5074/.*\.jpg)'
img_html1=re.findall(p,img_html)
for each in img_html1:
print(each)
'''
file_name=each.split('/')[-1]
urllib.request.urlretrieve(each,file_name)
'''
file_name=each.split('/')[-1]
req=urllib.request.Request(url=each,headers=headers)
response=urllib.request.urlopen(req)
img1=response.read()
with open(file_name,"wb") as f:
f.write(img1)

复制代码

这个代码测试是对的

账号		自动登录	找回密码
密码			立即注册