python3.x 更改了一下下载方式【代码见14楼】，仍然差几个文件无法下载

wp231957 · 发表于 2019-4-7 08:13:03

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 wp231957 于 2019-4-8 11:13 编辑

网上搜了一下，都好麻烦啊有没有简单的办法

# coding: utf-8
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import re,os,requests

path="e:\\reeoo.pic\\"
isExists=os.path.exists(path)
if not isExists:
  os.makedirs(path)
else:
  print (path+' 目录已存在' )
headers = {'User-Agent':'Mozilla/5.0(Wimdows NT 6.1; WOW64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
url="http://reeoo.com"
res = requests.get(url,headers=headers,timeout=20)
content=res.text
#ls2=re.findall("https:\/\/media\.langtze\.com\/(?:[a-zA-Z]+|[\u4e00-\u9fa5]+)\.png!page",content)
ls2=re.findall("https:\/\/media\.langtze\.com\/[a-zA-Z]+\.png!page",content)
for x in ls2[:]:
  print(path+x[26:-5])
  urlretrieve(x,path+x[26:-5])

上面的代码下载没有问题，但是含有中文的文件就中断了返回很多错误

wp231957 · 发表于 2019-4-7 09:29:44

# coding: utf-8
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import re,os,requests
path="e:\\reeoo.pic\"
isExists=os.path.exists(path)
if not isExists:
os.makedirs(path)
else:
print (path+' 目录已存在' )
headers = {'User-Agent':'Mozilla/5.0(Wimdows NT 6.1; WOW64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
url="http://reeoo.com"
res = requests.get(url,headers=headers,timeout=20)
content=res.text
ls2=re.findall("https:\/\/media\.langtze\.com\/[^\.]+\.png!page",content)
for x in ls2[:]:
try:
print(path+x[26:-5])
urlretrieve(x,path+x[26:-5])
except:
print(path+x[26:-5]+"下载失败")
'''
E:\>python ex8.py
e:\reeoo.pic\Nam Insik’s Portfolio Site.png
e:\reeoo.pic\Nam Insik’s Portfolio Site.png下载失败
e:\reeoo.pic\和-水都饌菓.png
e:\reeoo.pic\和-水都饌菓.png下载失败
e:\reeoo.pic\notabag.png
e:\reeoo.pic\このラジオがヤバい.png
e:\reeoo.pic\このラジオがヤバい.png下载失败
e:\reeoo.pic\BAKE CHEESE TART.png
e:\reeoo.pic\BAKE CHEESE TART.png下载失败
e:\reeoo.pic\HAMADA TEA.png
e:\reeoo.pic\HAMADA TEA.png下载失败
e:\reeoo.pic\Mogney.png
e:\reeoo.pic\村山人形店.png
e:\reeoo.pic\村山人形店.png下载失败
e:\reeoo.pic\Borraginol Town.png
e:\reeoo.pic\Borraginol Town.png下载失败
e:\reeoo.pic\Maxim Shkret.png
e:\reeoo.pic\Maxim Shkret.png下载失败
e:\reeoo.pic\Hinderer & Wolff.png
e:\reeoo.pic\Hinderer & Wolff.png下载失败
e:\reeoo.pic\Superrb.png
e:\reeoo.pic\Vintage.png
e:\reeoo.pic\Wind and Words.png
e:\reeoo.pic\Wind and Words.png下载失败
e:\reeoo.pic\Discover the Global World of Lexus.png
e:\reeoo.pic\Discover the Global World of Lexus.png下载失败
e:\reeoo.pic\BRANU.png
e:\reeoo.pic\ActiveCollab.png
e:\reeoo.pic\S-GROOVE.png
e:\reeoo.pic\66° Nord.png
e:\reeoo.pic\66° Nord.png下载失败
e:\reeoo.pic\STUDIO.png
e:\reeoo.pic\Bartle Bogle Hegarty.png
e:\reeoo.pic\Bartle Bogle Hegarty.png下载失败
e:\reeoo.pic\Unrivaled Calligraphy Yan Zhenqing and His Legacy.png
e:\reeoo.pic\Unrivaled Calligraphy Yan Zhenqing and His Legacy.png下载失败
e:\reeoo.pic\CHALLENGE Studio.png
e:\reeoo.pic\CHALLENGE Studio.png下载失败
'''

复制代码

水柔炎 · 发表于 2019-4-7 09:41:11

wp231957 发表于 2019-4-7 09:29

在14行和15行中间加一个res.decode='utf8'看看，能不能解决问题，可能是编码问题

水柔炎 · 发表于 2019-4-7 09:42:37

wp231957 发表于 2019-4-7 09:29

你下载的是图片吗？如果是图片，那你要调用open（）把它写成图片的文件

wp231957 · 发表于 2019-4-7 09:45:02

水柔炎发表于 2019-4-7 09:42
你下载的是图片吗？如果是图片，那你要调用open（）把它写成图片的文件

直接下载保存 urlretrieve 干嘛要写图片啊
而且open 同样存在中文名不行的问题

水柔炎 · 发表于 2019-4-7 09:46:19

wp231957 发表于 2019-4-7 09:45
直接下载保存 urlretrieve 干嘛要写图片啊
而且open 同样存在中文名不行的问题

我没有用过urlretrieve ，不知道，那你看看是不是编码问题吧

wp231957 · 发表于 2019-4-7 09:46:32

水柔炎发表于 2019-4-7 09:41
在14行和15行中间加一个res.decode='utf8'看看，能不能解决问题，可能是编码问题

没用呢

凌九霄 · 发表于 2019-4-7 11:03:54

本帖最后由凌九霄于 2019-4-7 11:06 编辑

360截图20190407105833446.jpg

因为中文是双字节，所以你的字符串截取有问题，试试下面的代码：

for x in ls2[:]:
try:
print(path+x[26:])
urlretrieve(x,path+x[26:])
except:
print(path+x[26:]+"下载失败")

复制代码

wp231957 · 发表于 2019-4-7 11:19:57

凌九霄发表于 2019-4-7 11:03
因为中文是双字节，所以你的字符串截取有问题，试试下面的代码：

比原来代码多下载了8个文件但是还是不行

E:\>python ex8.py
e:\reeoo.pic\ 目录已存在
e:\reeoo.pic\Nam Insik’s Portfolio Site.png!page
e:\reeoo.pic\Nam Insik’s Portfolio Site.png!page下载失败
e:\reeoo.pic\和-水都饌菓.png!page
e:\reeoo.pic\和-水都饌菓.png!page下载失败
e:\reeoo.pic\notabag.png!page
e:\reeoo.pic\このラジオがヤバい.png!page
e:\reeoo.pic\このラジオがヤバい.png!page下载失败
e:\reeoo.pic\BAKE CHEESE TART.png!page
e:\reeoo.pic\BAKE CHEESE TART.png!page下载失败
e:\reeoo.pic\HAMADA TEA.png!page
e:\reeoo.pic\HAMADA TEA.png!page下载失败
e:\reeoo.pic\Mogney.png!page
e:\reeoo.pic\村山人形店.png!page
e:\reeoo.pic\村山人形店.png!page下载失败
e:\reeoo.pic\Borraginol Town.png!page
e:\reeoo.pic\Borraginol Town.png!page下载失败
e:\reeoo.pic\Maxim Shkret.png!page
e:\reeoo.pic\Maxim Shkret.png!page下载失败
e:\reeoo.pic\Hinderer & Wolff.png!page
e:\reeoo.pic\Hinderer & Wolff.png!page下载失败
e:\reeoo.pic\Superrb.png!page
e:\reeoo.pic\Vintage.png!page
e:\reeoo.pic\Wind and Words.png!page
e:\reeoo.pic\Wind and Words.png!page下载失败
e:\reeoo.pic\Discover the Global World of Lexus.png!page
e:\reeoo.pic\Discover the Global World of Lexus.png!page下载失败
e:\reeoo.pic\BRANU.png!page
e:\reeoo.pic\ActiveCollab.png!page
e:\reeoo.pic\S-GROOVE.png!page
e:\reeoo.pic\66° Nord.png!page
e:\reeoo.pic\66° Nord.png!page下载失败
e:\reeoo.pic\STUDIO.png!page
e:\reeoo.pic\Bartle Bogle Hegarty.png!page
e:\reeoo.pic\Bartle Bogle Hegarty.png!page下载失败
e:\reeoo.pic\Unrivaled Calligraphy Yan Zhenqing and His Legacy.png!page
e:\reeoo.pic\Unrivaled Calligraphy Yan Zhenqing and His Legacy.png!page下载失败
e:\reeoo.pic\CHALLENGE Studio.png!page
e:\reeoo.pic\CHALLENGE Studio.png!page下载失败

凌九霄 · 发表于 2019-4-7 11:28:19

wp231957 发表于 2019-4-7 11:19
比原来代码多下载了8个文件但是还是不行

E:\>python ex8.py

文件路径应该没有问题了，下载失败的原因与此无关

wp231957 · 发表于 2019-4-7 11:32:09

凌九霄发表于 2019-4-7 11:28
文件路径应该没有问题了，下载失败的原因与此无关

不识别中文日文啥的不识别空格

只是不知道咋解决

凌九霄 · 发表于 2019-4-7 11:45:20

wp231957 发表于 2019-4-7 11:32
不识别中文日文啥的不识别空格

只是不知道咋解决

应该是urlretrieve不识别空格之类的吧

chxchxkkk · 发表于 2019-4-7 15:43:12

path+x[26:-5]
感觉是这个切片的问题。

wp231957 · 发表于 2019-4-8 11:12:38

# coding: utf-8
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import re,os,requests,urllib
from urllib.request import urlopen
path="e:\\reeoo.pic\"
isExists=os.path.exists(path)
if not isExists:
os.makedirs(path)
else:
print (path+' 目录已存在' )
headers = {'User-Agent':'Mozilla/5.0(Wimdows NT 6.1; WOW64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
url="http://reeoo.com"
res = requests.get(url,headers=headers,timeout=20)
content=res.text
ls2=re.findall("https:\/\/media\.langtze\.com\/[^\.]+\.png!page",content)
for x in ls2[:]:
filename=path+x[26:-5]
#print(x)
try:
url2=re.sub(r" ","%20",x)
response = urlopen(url2)
with open(filename, 'wb') as fp:
fp.write(response.read())
except:
print(x)

复制代码

还差以下几个文件无法下载：
https://media.langtze.com/Nam Insik’s Portfolio Site.png!page
https://media.langtze.com/和-水都饌菓.png!page
https://media.langtze.com/このラジオがヤバい.png!page
https://media.langtze.com/村山人形店.png!page
https://media.langtze.com/Hinderer & Wolff.png!page
https://media.langtze.com/66° Nord.png!page

账号		自动登录	找回密码
密码			立即注册

python3.x 更改了一下下载方式【代码见14楼】，仍然差几个文件无法下载

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块