鱼C论坛

 找回密码
 立即注册
查看: 3887|回复: 6

urllib.request.urlopen 的问题,小弟实在找不出原因,而且 下午还能用,现在就不行了

[复制链接]
发表于 2017-6-25 00:41:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
微信图片_20170625003649.png

小弟用
  1. import requests
  2. from bs4 import BeautifulSoup
复制代码


用 requests 和 BeautifulSoup 找到图片的网址
然后,用小甲鱼的方法
  1. img = urllib.request.urlopen(h).read()
复制代码


这个方法来读取图片链接,然后 用wb的方式,存储成图片文件
可是 报错了 而且 这次 挺懵逼的,还请各位大神,谁遇到过这个情况

QQ截图20170625004037.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-6-25 00:45:34 | 显示全部楼层
把整个的代码贴一下吧,光看报错也看不出什么来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-6-25 00:58:37 | 显示全部楼层
  1. import requests
  2. from bs4 import BeautifulSoup
  3. import re
  4. import urllib.request
  5. import time

  6. link_url = []
  7. tupian_url = []
  8. zhang = ge = 0
  9. #获取列表页所有网址
  10. for i in range(3):
  11.    
  12.     print('正在获取第'+ str(i+1) +'页网址')
  13.     #获取链接
  14.     link = 'http://www.**********.com' + str(234-i) + '.html'
  15.     #打开网址
  16.     r = requests.get(url=link)
  17.     #解析网址
  18.     soup = BeautifulSoup(r.text,'lxml')
  19.     #获取对应链接
  20.     wangzhi = soup.find_all('a',href = re.compile('/htm/\d{4}/\d{1,2}/\d{1,2}/p01/\d{4,}.html'))
  21.     #遍历链接,加入列表
  22.     for j in wangzhi:
  23.        u = j.attrs['href']
  24.        u = 'http://www.**********.com/' + u
  25.        link_url.append(u)
  26.     break
  27. print('网址获取完成,共获取 '+str(len(link_url))+' 个网址')

  28. #获取网址中的图片链接
  29. for g in link_url:
  30.     ge = ge + 1
  31.     print('正在获取第 '+str(ge)+' 个网址的图片链接')
  32.     #打开网址
  33.     r = requests.get(url=g)
  34.     #解析网址
  35.     soup = BeautifulSoup(r.text,'lxml')
  36.     #解析网址中的图片链接
  37.     tupian = soup.find('div',id="view1").find_all('img')
  38.     #把解析到的图片网址,读取出来,并添加到 tupian_url
  39.     for i in tupian:
  40.         links = i.attrs['src']
  41.         tupian_url.append(links)
  42.     break
  43. print('图片链接获取完成!!!共有图片 '+str(len(tupian_url))+' 张')

  44. #告诉客户,一共采集了多少图片链接
  45. for h in tupian_url:
  46.    
  47.     #显示下载到第几张
  48.     zhang = zhang + 1
  49.     print('正在下载第'+str(zhang)+'张图片')
  50.     #获取当前时间,时分秒
  51.     now_time = time.strftime("%H%M%S",time.localtime())
  52.     #当前时间时分秒,加上原来的文件名,构成新的唯一文件名
  53.     wenjianming = now_time + h.split('/')[-1]
  54.     #打开图片链接
  55.     img = urllib.request.urlopen(h).read()
  56.     #获取图片
  57.     print(wenjianming)
  58.     #把获取的文件,保存下来
  59.     with open(wenjianming, 'wb') as f:
  60.         f.write(img)

  61. print('图片获取完成!!!')
复制代码


这是代码 网址小弟隐藏了,报错的 那一句就是  img = urllib.request.urlopen(h).read() 最后倒数第八行 其他运行都ok
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-6-25 00:59:24 | 显示全部楼层
这是代码 网址小弟隐藏了,报错的 那一句就是  img = urllib.request.urlopen(h).read() 最后倒数第八行 其他运行都ok
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-6-25 09:25:27 | 显示全部楼层
图片链接用 urllib.request.urlopen()好像是打不开的,使用 urllib.request.urlretrieve(链接,路径)可以把图片直接下载到本地
  1. import urllib.request
  2. url = "http://gsearch2.alicdn.com/img/bao/uploaded/i4/i4/TB17b4jQpXXXXbAXpXXXXXXXXXX_!!0-item_pic.jpg"
  3. urllib.request.urlretrieve(url,"f:/1."+url.split(".")[-1])
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-19 00:37:28 From FishC Mobile | 显示全部楼层
哥们,问题解决了吗?我也遇到urlopen打不开url的问题,之前还用得好好的,挺郁闷的,直接把小甲鱼的课件代码拿过来也运行不了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-23 10:36:37 | 显示全部楼层
link的网址不对吧
  1. link = 'http://www.**********.com' + str(234-i) + '.html'
复制代码
这样的网址不就变成http://www.**********.com234.html了啊,com后面少了个/吧,不知道这样对不对哦
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-22 03:51

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表