鱼C论坛

 找回密码
 立即注册
查看: 3300|回复: 6

urllib.request.urlopen 的问题,小弟实在找不出原因,而且 下午还能用,现在就不行了

[复制链接]
发表于 2017-6-25 00:41:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
微信图片_20170625003649.png

小弟用
import requests
from bs4 import BeautifulSoup

用 requests 和 BeautifulSoup 找到图片的网址
然后,用小甲鱼的方法
img = urllib.request.urlopen(h).read()

这个方法来读取图片链接,然后 用wb的方式,存储成图片文件
可是 报错了 而且 这次 挺懵逼的,还请各位大神,谁遇到过这个情况

QQ截图20170625004037.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-6-25 00:45:34 | 显示全部楼层
把整个的代码贴一下吧,光看报错也看不出什么来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-6-25 00:58:37 | 显示全部楼层
import requests
from bs4 import BeautifulSoup
import re
import urllib.request
import time

link_url = []
tupian_url = []
zhang = ge = 0
#获取列表页所有网址
for i in range(3):
    
    print('正在获取第'+ str(i+1) +'页网址')
    #获取链接
    link = 'http://www.**********.com' + str(234-i) + '.html'
    #打开网址
    r = requests.get(url=link)
    #解析网址
    soup = BeautifulSoup(r.text,'lxml')
    #获取对应链接
    wangzhi = soup.find_all('a',href = re.compile('/htm/\d{4}/\d{1,2}/\d{1,2}/p01/\d{4,}.html'))
    #遍历链接,加入列表
    for j in wangzhi:
       u = j.attrs['href']
       u = 'http://www.**********.com/' + u
       link_url.append(u)
    break
print('网址获取完成,共获取 '+str(len(link_url))+' 个网址')

#获取网址中的图片链接
for g in link_url:
    ge = ge + 1
    print('正在获取第 '+str(ge)+' 个网址的图片链接')
    #打开网址
    r = requests.get(url=g)
    #解析网址
    soup = BeautifulSoup(r.text,'lxml')
    #解析网址中的图片链接
    tupian = soup.find('div',id="view1").find_all('img')
    #把解析到的图片网址,读取出来,并添加到 tupian_url
    for i in tupian:
        links = i.attrs['src']
        tupian_url.append(links)
    break
print('图片链接获取完成!!!共有图片 '+str(len(tupian_url))+' 张')

#告诉客户,一共采集了多少图片链接
for h in tupian_url:
    
    #显示下载到第几张
    zhang = zhang + 1
    print('正在下载第'+str(zhang)+'张图片')
    #获取当前时间,时分秒
    now_time = time.strftime("%H%M%S",time.localtime())
    #当前时间时分秒,加上原来的文件名,构成新的唯一文件名
    wenjianming = now_time + h.split('/')[-1]
    #打开图片链接
    img = urllib.request.urlopen(h).read()
    #获取图片
    print(wenjianming)
    #把获取的文件,保存下来
    with open(wenjianming, 'wb') as f:
        f.write(img)

print('图片获取完成!!!')

这是代码 网址小弟隐藏了,报错的 那一句就是  img = urllib.request.urlopen(h).read() 最后倒数第八行 其他运行都ok
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-6-25 00:59:24 | 显示全部楼层
这是代码 网址小弟隐藏了,报错的 那一句就是  img = urllib.request.urlopen(h).read() 最后倒数第八行 其他运行都ok
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-6-25 09:25:27 | 显示全部楼层
图片链接用 urllib.request.urlopen()好像是打不开的,使用 urllib.request.urlretrieve(链接,路径)可以把图片直接下载到本地
import urllib.request
url = "http://gsearch2.alicdn.com/img/bao/uploaded/i4/i4/TB17b4jQpXXXXbAXpXXXXXXXXXX_!!0-item_pic.jpg"
urllib.request.urlretrieve(url,"f:/1."+url.split(".")[-1])
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-19 00:37:28 From FishC Mobile | 显示全部楼层
哥们,问题解决了吗?我也遇到urlopen打不开url的问题,之前还用得好好的,挺郁闷的,直接把小甲鱼的课件代码拿过来也运行不了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-23 10:36:37 | 显示全部楼层
link的网址不对吧
link = 'http://www.**********.com' + str(234-i) + '.html'
这样的网址不就变成http://www.**********.com234.html了啊,com后面少了个/吧,不知道这样对不对哦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-21 04:15

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表