鱼C论坛

 找回密码
 立即注册
查看: 17641|回复: 12

用python写的网络爬虫,打开链接地址的时候老是出<urlopen error [WinError 10061]

[复制链接]
发表于 2015-7-27 10:25:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
R4UFC[)}_XVZ){EVJNXQLSW.jpg
这要怎么解决啊
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2015-7-27 17:06:58 | 显示全部楼层
ip.rand_ip()是什么?真的有这个代理服务器吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-7-27 17:57:53 | 显示全部楼层
本帖最后由 小山童鞋 于 2015-7-27 17:59 编辑
戴宇轩 发表于 2015-7-27 17:06
ip.rand_ip()是什么?真的有这个代理服务器吗?

  1. import urllib.request as ur
  2. import re
  3. import random
  4. def open_url(url):
  5.         response = ur.Request(url)
  6.         response = response.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36')
  7.         response = ur.urlopen(url)
  8.         return response.read()

  9. #def find_ip(text_html):
  10. #        str1 = r'((?:(?:(?:[0,1]?\d?\d)|(?:2[0-4]\d)|(?:25[0-5]))\.){3}(?:[0,1]?\d?\d)|(?:2[0-4]\d)|(?:25[0-5]))'
  11. #        return re.findall(str1,text_html)

  12. #def deals(ips):
  13. #        ip_list = []
  14. #        for each in ips:
  15. #                if -1 != each.find('.'):
  16. #                        ip_list.append(each)
  17. #        return ip_list

  18. #def get_ip():
  19. #        url = 'http://www.xici.net.co/nn'
  20. #        text_html = open_url(url).decode('utf-8')
  21. #        ips = find_ip(text_html)
  22. #        ip_list = deals(ips)
  23. #        return ip_list

  24. def _random_ip():
  25.         url = 'http://www.xici.net.co/nn'
  26.         str1 = r'((?:(?:(?:[0,1]?\d?\d)|(?:2[0-4]\d)|(?:25[0-5]))\.){3}(?:[0,1]?\d?\d)|(?:2[0-4]\d)|(?:25[0-5]))'
  27.         text_html = open_url(url).decode('utf-8')
  28.         ips = re.findall(str1,text_html)
  29.         ip_list = []
  30.         for each in ips:
  31.                 if -1 != each.find('.'):
  32.                         ip_list.append(each)
  33.         while True:
  34.                 yield ip_list[(random.randint(0,len(ip_list)))]
  35. def rand_ip():
  36.         return next(_random_ip())
复制代码

ip.rand_ip()是我写的一个获得代理IP地址的模块,原文定义如上。
获得随机获得代理IP地址这个是没有问题的。我测试过了的。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-7-27 20:04:40 | 显示全部楼层
小山童鞋 发表于 2015-7-27 17:57
ip.rand_ip()是我写的一个获得代理IP地址的模块,原文定义如上。
获得随机获得代理IP地址这个是没有 ...

那应该是百度不给爬虫怕爬,你可以试试改user-agent,小甲鱼老师的视频里介绍过:-)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-7-27 20:49:09 | 显示全部楼层
戴宇轩 发表于 2015-7-27 20:04
那应该是百度不给爬虫怕爬,你可以试试改user-agent,小甲鱼老师的视频里介绍过:-)


我觉得应该是我写的代码有问题,但是我也搞不懂,同样的函数为什放在这段代码里面就不行
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-7-27 21:01:36 | 显示全部楼层
小山童鞋 发表于 2015-7-27 20:49
我觉得应该是我写的代码有问题,但是我也搞不懂,同样的函数为什放在这段代码里面就不行

是不是http和https的问题?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-7-27 21:09:43 | 显示全部楼层
戴宇轩 发表于 2015-7-27 21:01
是不是http和https的问题?

我明天把整个程序再重写试试。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-7-28 09:58:54 | 显示全部楼层
其实你 那个IP  是不能用 ··或很慢的·!!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-7-28 11:17:35 | 显示全部楼层
无所谓无的 发表于 2015-7-28 09:58
其实你 那个IP  是不能用 ··或很慢的·!!


你试过了?我第一次写出来的时候是可以用的,但是修改了一下代码,就没办法用了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-7-28 11:30:29 | 显示全部楼层
楼上正解,可能random到的ip不能用也是可能的原因。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-7-28 14:43:04 | 显示全部楼层
ddddddddddddddddddddddddddddddddddddddddddd

评分

参与人数 1鱼币 -1 收起 理由
康小泡 -1

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-7-28 15:00:13 | 显示全部楼层
遇到过,是IP的问题,太慢或者不能用

解决办法是 if error: 再执行一遍;else: 继续访问

用变量来控制上一步 if error 执行的遍数

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-30 09:55:01 | 显示全部楼层
真的有可能是那个代理ip有问题。我一开始用了一个ip一直出错,然后学着视频random的时候发现其中有一个正常,然后用那个ip一直测试,发现没有出现10061等问题了。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-16 23:27

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表