urllib.request.urlopen 的问题，小弟实在找不出原因，而且下午还能用，现在就不行了

雪夜无语 · 发表于 2017-6-25 00:41:05

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

小弟用

import requests
from bs4 import BeautifulSoup

用 requests 和 BeautifulSoup 找到图片的网址
然后，用小甲鱼的方法

img = urllib.request.urlopen(h).read()

这个方法来读取图片链接，然后用wb的方式，存储成图片文件
可是报错了而且这次挺懵逼的，还请各位大神，谁遇到过这个情况

QQ截图20170625004037.png

shuofxz · 发表于 2017-6-25 00:45:34

把整个的代码贴一下吧，光看报错也看不出什么来

雪夜无语 · 发表于 2017-6-25 00:58:37

import requests
from bs4 import BeautifulSoup
import re
import urllib.request
import time

link_url = []
tupian_url = []
zhang = ge = 0
#获取列表页所有网址
for i in range(3):
    
    print('正在获取第'+ str(i+1) +'页网址')
    #获取链接
    link = 'http://www.**********.com' + str(234-i) + '.html'
    #打开网址
    r = requests.get(url=link)
    #解析网址
    soup = BeautifulSoup(r.text,'lxml')
    #获取对应链接
    wangzhi = soup.find_all('a',href = re.compile('/htm/\d{4}/\d{1,2}/\d{1,2}/p01/\d{4,}.html'))
    #遍历链接，加入列表
    for j in wangzhi:
       u = j.attrs['href']
       u = 'http://www.**********.com/' + u
       link_url.append(u)
    break
print('网址获取完成,共获取 '+str(len(link_url))+' 个网址')

#获取网址中的图片链接
for g in link_url:
    ge = ge + 1
    print('正在获取第 '+str(ge)+' 个网址的图片链接')
    #打开网址
    r = requests.get(url=g)
    #解析网址
    soup = BeautifulSoup(r.text,'lxml')
    #解析网址中的图片链接
    tupian = soup.find('div',id="view1").find_all('img')
    #把解析到的图片网址，读取出来，并添加到 tupian_url
    for i in tupian:
        links = i.attrs['src']
        tupian_url.append(links)
    break
print('图片链接获取完成！！！共有图片 '+str(len(tupian_url))+' 张')

#告诉客户，一共采集了多少图片链接
for h in tupian_url:
    
    #显示下载到第几张
    zhang = zhang + 1
    print('正在下载第'+str(zhang)+'张图片')
    #获取当前时间，时分秒
    now_time = time.strftime("%H%M%S",time.localtime())
    #当前时间时分秒，加上原来的文件名，构成新的唯一文件名
    wenjianming = now_time + h.split('/')[-1]
    #打开图片链接
    img = urllib.request.urlopen(h).read()
    #获取图片
    print(wenjianming)
    #把获取的文件，保存下来
    with open(wenjianming, 'wb') as f:
        f.write(img)

print('图片获取完成！！！')

这是代码网址小弟隐藏了，报错的那一句就是 img = urllib.request.urlopen(h).read() 最后倒数第八行其他运行都ok

雪夜无语 · 发表于 2017-6-25 00:59:24

这是代码网址小弟隐藏了，报错的那一句就是 img = urllib.request.urlopen(h).read() 最后倒数第八行其他运行都ok

和vvv · 发表于 2017-6-25 09:25:27

图片链接用 urllib.request.urlopen（）好像是打不开的，使用 urllib.request.urlretrieve（链接，路径）可以把图片直接下载到本地

import urllib.request
url = "http://gsearch2.alicdn.com/img/bao/uploaded/i4/i4/TB17b4jQpXXXXbAXpXXXXXXXXXX_!!0-item_pic.jpg"
urllib.request.urlretrieve(url,"f:/1."+url.split(".")[-1])

梦醉美 · 发表于 2017-10-19 00:37:28

哥们，问题解决了吗？我也遇到urlopen打不开url的问题，之前还用得好好的，挺郁闷的，直接把小甲鱼的课件代码拿过来也运行不了

2740710202 · 发表于 2017-10-23 10:36:37

link的网址不对吧

link = 'http://www.**********.com' + str(234-i) + '.html'

这样的网址不就变成http://www.**********.com234.html了啊，com后面少了个/吧，不知道这样对不对哦

账号		自动登录	找回密码
密码			立即注册

urllib.request.urlopen 的问题，小弟实在找不出原因，而且 下午还能用，现在就不行了

马上注册，结交更多好友，享用更多功能^_^

urllib.request.urlopen 的问题，小弟实在找不出原因，而且下午还能用，现在就不行了