照片下载下来全为404

郝大大 · 发表于 2018-4-17 17:27:14

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

大哥们，帮我看下这个小问题，照片下再下来打开以后全为404

import urllib.request
import re
def url_open(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1')
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
print(html)
return html

def get_img(html):
p=r'<img src="([^"]+\.jpg)"'
imglist = re.findall(p,html)

for each in imglist:
      filename = each.split('/')[-1]
      print(filename)
      print(each)
      urllib.request.urlretrieve(each,filename,None)


if __name__ == '__main__':
url="http://www.umei.cc/meinvtupian/waiguomeinv/hanguomeinv.htm"
get_img(url_open(url))
感激不尽啦

ba21 · 发表于 2018-4-17 20:01:44

加密反爬了呗。
换网站学习吧

郝大大 · 发表于 2018-4-19 16:12:22

ba21 发表于 2018-4-17 20:01
加密反爬了呗。
换网站学习吧

好的，我在找个辣眼睛的网站，哈哈哈

chakyam · 发表于 2018-4-19 17:39:01

加headers就行了，我写的时候有两张图片是404，其他正常

headers={
'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'no-cache','Connection': 'keep-alive',
'DNT': '1','Host': 'i1.umei.cc','Pragma': 'no-cache','Referer': 'http://www.umei.cc/meinvtupian/waiguomeinv/hanguomeinv.htm','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'}

复制代码

郝大大 · 发表于 2018-4-20 14:24:38

chakyam 发表于 2018-4-19 17:39
加headers就行了，我写的时候有两张图片是404，其他正常

哥哥，是这样写的嘛，还是不行啊
import urllib.request
import re
def url_open(url):
req=urllib.request.Request(url)
req.add_headers={
      'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'no-cache','Connection': 'keep-alive',
      'DNT': '1','Host': 'i1.umei.cc','Pragma': 'no-cache','Referer': 'http://www.umei.cc/meinvtupian/waiguomeinv/hanguomeinv.htm','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'}
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
print(html)
return html

def get_img(html):
p=r'<img src="([^"]+\.jpg)"'
imglist = re.findall(p,html)

for each in imglist:
      filename = each.split('/')[-1]
      print(filename)
      print(each)
      urllib.request.urlretrieve(each,filename,None)


if __name__ == '__main__':
url="http://www.umei.cc/meinvtupian/waiguomeinv/hanguomeinv.htm"
get_img(url_open(url))

账号		自动登录	找回密码
密码			立即注册