[已解决]如何下载非http开头的jpg文件

fan1993423 · 发表于 2018-3-31 01:57:47

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

求助，Python 如何保存下载不是以http，https开头的jpg文件，我用了urlretrieve显示unknown url type: 'data/attachment/forum/201704/06/133258rhzwzrmtg2m2pgzr.jpg'

最佳答案

月排行榜 / 总排行榜

ba21

2018-3-31 14:27:37

fan1993423 发表于 2018-3-31 13:16
顺便问一下，这个r是不是一定要把里面的写完，还是只需哟把src=""这里面的写就可以找到图片并下载呢？

import os
import re
import requests
import urllib.request as ur
def openurl(url):
req=ur.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.2.1.17116')
response=ur.urlopen(req)
html=response.read().decode('gbk')
return html
def getimage(html):
r=r'<ignore_js_op>.*?<img.*?file="(.*?)".*?/>.*?</ignore_js_op>'
p=re.findall(r,html,re.S)
print(p)
for each in p:
f=each.split('/')[-1]
ur.urlretrieve("http://www.cl4.cc/"+each,f)
if __name__=='__main__':
url='http://www.cl4.cc/thread-8196-1-1.html'
getimage(openurl(url))

复制代码

跳转到最佳答案楼层

mgsky1 · 发表于 2018-3-31 08:10:51

我觉得图片既然能在网上用，肯定要满足某个协议的，不知道LL的地址的完整版是什么。不会图片的地址就是

data/attachment/forum/201704/06/133258rhzwzrmtg2m2pgzr.jpg

吧，这个看上去是一个相对地址，前面应该还有协议头之类的

fan1993423 · 发表于 2018-3-31 09:39:49

mgsky1 发表于 2018-3-31 08:10
我觉得图片既然能在网上用，肯定要满足某个协议的，不知道LL的地址的完整版是什么。不会图片的地址就是

...

但是我看不到，这个网站是显示几张图，然后回复就可以看到隐藏的东西（回复要登陆账号，但是要钱才能注册账号）。这个是我看到能显示图片的src

fan1993423 · 发表于 2018-3-31 09:43:10

mgsky1 发表于 2018-3-31 08:10
我觉得图片既然能在网上用，肯定要满足某个协议的，不知道LL的地址的完整版是什么。不会图片的地址就是

...

那请问怎么查隐藏的地址，我也觉得有隐藏的

ba21 · 发表于 2018-3-31 09:58:47

麻烦上代码

fan1993423 · 发表于 2018-3-31 13:14:50

ba21 发表于 2018-3-31 09:58
麻烦上代码

import os
import re
import requests
import urllib.request as ur
def openurl(url):
req=ur.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.2.1.17116')
response=ur.urlopen(req)
html=response.read().decode('gbk')
return html

def getimage(html):
r=r'<img id="[^"]+" aid="\d+" src="([^"]+\.jpg)" zoomfile="[^"]+\.jpg" file="[^"]+\.jpg" class="zoom" onclick="zoom(this, this.src, 0, 0, 0)" width="600" alt="楚楚可怜的小学生萝莉音波最新高价收购的极品- 淘女吧资源站 " title="楚楚可怜的小学生萝莉音波最新高价收购的极品- 淘女吧资源站 " inpost="1" onmouseover="[^5]+" lazyloaded="true" height="336" initialized="true"'


p=re.findall(r,html)

for each in p:
      f=each.split('/')[-1]
      ur.urlretrieve(each,f)




if __name__=='__main__':
url='http://www.cl4.cc/thread-8196-1-1.html'
getimage(openurl(url))

fan1993423 · 发表于 2018-3-31 13:16:56

ba21 发表于 2018-3-31 09:58
麻烦上代码

顺便问一下，这个r是不是一定要把里面的写完，还是只需哟把src=""这里面的写就可以找到图片并下载呢？

chakyam · 发表于 2018-3-31 13:49:10

本帖最后由 chakyam 于 2018-3-31 13:51 编辑

游客，如果您要查看本帖隐藏内容请回复

fan1993423 · 发表于 2018-3-31 13:57:05

本帖最后由 fan1993423 于 2018-3-31 14:02 编辑

chakyam 发表于 2018-3-31 13:49
**** 本内容被作者隐藏 ****

我也不想，所以我都是问问题，主要是有鱼油问我代码，我才把这个代码贴上来了，你能不能帮我改一下代码，我现在遇到瓶颈了，当然我还刚开始接触这个爬虫，另外这个帖子怎么隐藏，我尽量不让这个帖子在公众出现

chakyam · 发表于 2018-3-31 14:12:41

[hide]
要隐藏的内容
[/hide]
你找到的data/attachment/forum/201704/06/133258rhzwzrmtg2m2pgzr.jpg加上头部就能访问了，我没用python访问过，应该也是可以的

复制代码

fan1993423 · 发表于 2018-3-31 14:14:15

chakyam 发表于 2018-3-31 14:12

好

ba21 · 发表于 2018-3-31 14:27:37

fan1993423 发表于 2018-3-31 13:16
顺便问一下，这个r是不是一定要把里面的写完，还是只需哟把src=""这里面的写就可以找到图片并下载呢？

import os
import re
import requests
import urllib.request as ur
def openurl(url):
req=ur.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.2.1.17116')
response=ur.urlopen(req)
html=response.read().decode('gbk')
return html
def getimage(html):
r=r'<ignore_js_op>.*?<img.*?file="(.*?)".*?/>.*?</ignore_js_op>'
p=re.findall(r,html,re.S)
print(p)
for each in p:
f=each.split('/')[-1]
ur.urlretrieve("http://www.cl4.cc/"+each,f)
if __name__=='__main__':
url='http://www.cl4.cc/thread-8196-1-1.html'
getimage(openurl(url))

复制代码

fan1993423 · 发表于 2018-3-31 14:32:43

ba21 发表于 2018-3-31 14:27

大佬，小弟膜拜一下，我先好好研读一下你的代码和我的代码的区别，另外这个网址隐藏的内容python有办法爬取到吗？

fan1993423 · 发表于 2018-3-31 14:40:46

ba21 发表于 2018-3-31 14:27

大佬我刚看了下你的的代码，这个好像有非捕获组，这个网址看来对我们萌新还是有不少难度，你能稍微讲解一下吗？

ba21 · 发表于 2018-3-31 14:44:51

fan1993423 发表于 2018-3-31 14:32
大佬，小弟膜拜一下，我先好好研读一下你的代码和我的代码的区别，另外这个网址隐藏的内容python有办法爬 ...

re.S 换行当普通字符处理
(.*?) 一个组

fan1993423 · 发表于 2018-3-31 14:48:35

ba21 发表于 2018-3-31 14:44
re.S 换行当普通字符处理
(.*?) 一个组

哦，为什么我那个不行了，我也是按照小甲鱼老师说的，这个没有双引号就想到用[^"]+，结果一直匹配不出来

，另外最主要的是，我们用python有没有办法把网站中隐藏的内容给揪出来，毕竟以后很多重要的东西，那些公司都给保密了

fan1993423 · 发表于 2018-3-31 14:49:24

ba21 发表于 2018-3-31 14:44
re.S 换行当普通字符处理
(.*?) 一个组

毕竟这几张图片毕竟是现成的，可以点右键另存为。

ba21 · 发表于 2018-3-31 15:01:54

fan1993423 发表于 2018-3-31 14:48
哦，为什么我那个不行了，我也是按照小甲鱼老师说的，这个没有双引号就想到用[^"]+，结果一直匹配不出来{ ...

有办法。先慢慢学

fan1993423 · 发表于 2018-3-31 15:09:35

ba21 发表于 2018-3-31 15:01
有办法。先慢慢学

好的，大佬，以后我有问题你要多回答我哈，我是萌新

，另外我现在越来越感到普通的简单的，比如贴吧里面图片学了小甲鱼的视频后感觉没问题了，那怕网址在变化，但是网站动点手脚我就没法了，大佬有没有什么好的视频或者好的方法系统学习爬虫。求分享，另外大佬能不能发一下福利，把这个王者隐藏的内容爬出来。我现在肯定做不到

fan1993423 · 发表于 2018-3-31 17:31:26

有会的可以试着来写一下爬取这个被隐藏的内容的代码

账号		自动登录	找回密码
密码			立即注册

[已解决]如何下载非http开头的jpg文件

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块