鱼C论坛

 找回密码
 立即注册
查看: 3066|回复: 10

[已解决]关于爬虫代理问题

[复制链接]
发表于 2020-11-14 19:02:17 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 兰竹皋 于 2020-11-14 22:25 编辑


读者好,近几天练习爬虫时遇到了个问题,希望得到解惑 ^_^, 谢谢。。。

请问,当requests携带了代理ip时,电脑报错:
requests.exceptions.ProxyError: HTTPConnectionPool(host='220.184.38.180', port=9000): Max retries exceeded with url: http://httpbin.org/ip (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.HTTPConnection object at 0x00000294FE623520>: Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接。')))
是为什么?
最佳答案
2020-11-15 10:48:15
兰竹皋 发表于 2020-11-15 10:31
就是最简单的代码例子,
在网上,goubanjia、原代理等地方找的免费ip,是因为ip都不能用的原因吗?

抓包看了,这个代理服务器鸟都不鸟,所以肯定不能用,找个可以用的代理吧。 2.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-11-15 07:12:07 | 显示全部楼层
代理不可用,换一个
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-15 09:13:51 | 显示全部楼层
发代码。
HTTP基于是IP层的协议,“携带IP”这个说法不对,就算不代理数据包也是有IP头的,设置代理只是IP头换成了代理服务器的IP和端口,不再是目标服务器的IP和80端口。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-15 10:31:33 | 显示全部楼层
suchocolate 发表于 2020-11-15 09:13
发代码。
HTTP基于是IP层的协议,“携带IP”这个说法不对,就算不代理数据包也是有IP头的,设置代理只是IP ...

  1. headers={
  2.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
  3.     }
  4. proxy = {
  5.     'http':'58.253.157.188:9999'
  6. }

  7. response = requests.get("http://httpbin.org/ip",proxies=proxy,headers=headers)

  8. print(response.text)
复制代码

就是最简单的代码例子,
在网上,goubanjia、原代理等地方找的免费ip,是因为ip都不能用的原因吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-15 10:48:15 | 显示全部楼层    本楼为最佳答案   
兰竹皋 发表于 2020-11-15 10:31
就是最简单的代码例子,
在网上,goubanjia、原代理等地方找的免费ip,是因为ip都不能用的原因吗?

抓包看了,这个代理服务器鸟都不鸟,所以肯定不能用,找个可以用的代理吧。 2.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-15 13:48:47 | 显示全部楼层
suchocolate 发表于 2020-11-15 10:48
抓包看了,这个代理服务器鸟都不鸟,所以肯定不能用,找个可以用的代理吧。

谢谢,那这么说,免费ip几乎都不能用了?
能问问,你们一般都在哪里找代理ip的吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-15 13:55:08 | 显示全部楼层
兰竹皋 发表于 2020-11-15 13:48
谢谢,那这么说,免费ip几乎都不能用了?
能问问,你们一般都在哪里找代理ip的吗?

我一般不用,好像大多数都是只能免费试用一会,稳定的都收费,比如每月30元什么的。
你找个代理商,问客户要个试用看看吧,学习的话用试用就行。


小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-15 14:02:12 | 显示全部楼层
suchocolate 发表于 2020-11-15 13:55
我一般不用,好像大多数都是只能免费试用一会,稳定的都收费,比如每月30元什么的。
你找个代理商,问客 ...

恩,谢谢啦 (^_^)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-15 14:03:02 | 显示全部楼层
1q23w31 发表于 2020-11-15 07:12
代理不可用,换一个

谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-15 15:19:45 | 显示全部楼层
suchocolate 发表于 2020-11-15 13:55
我一般不用,好像大多数都是只能免费试用一会,稳定的都收费,比如每月30元什么的。
你找个代理商,问客 ...


你好,还在吗?能帮我试试这代码吗?
我连续在www.goubanjia.com上爬了数百代理ip没一个可以用,很奇怪!!!,弄得我怀疑是自己电脑问题

  1. from multiprocessing.pool import ThreadPool
  2. import requests
  3. from lxml import etree
  4. import time



  5. def open_url(url):
  6.     headers = {
  7.             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
  8.     }
  9.     re = requests.get(url=url, headers=headers)
  10.     re.raise_for_status()
  11.     re.encoding = 'utf-8'
  12.     return re.text
  13.    
  14. def open_url_http(proxy):
  15.     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',}
  16.     try:
  17.         res = requests.get(url=url_http, headers=headers, proxy=proxy)
  18.         assert res.status_code == 200
  19.         print('http://'+proxy, end='\t')
  20.         con = res.json()['origin']
  21.         if con == proxy:
  22.             print('http://'+proxy+' 可以使用')
  23.         else:
  24.             print('error')
  25.     except Exception as e:
  26.             pass

  27. def open_url_https(proxy):
  28.     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',}
  29.     try:
  30.         res = requests.get(url=url_https, headers=headers, proxy=proxy)
  31.         assert res.status_code == 200
  32.         print('https://'+proxy, end='\t')
  33.         tree = etree.HTML(res.text)
  34.         con = tree.xpath('//body/p//text()')
  35.         if con[1] == proxy:
  36.             print('https://'+proxy+' 可以使用')
  37.         else:
  38.             print('error')
  39.     except Exception as e:
  40.             pass

  41. def get_proxies():
  42.     proxies_https = []
  43.     proxies_http = []
  44.     url = 'http://www.goubanjia.com/'
  45.     re_text = open_url(url=url)

  46.     tree = etree.HTML(re_text)
  47.     info_list = tree.xpath('//tbody/tr')
  48.     for each in info_list:
  49.         info_dict = {}

  50.         each_address_list = []
  51.         info_dict['address'] = each.xpath('./td[1]//*')
  52.         for each_address in info_dict['address']:
  53.             if each_address.xpath('./@style') == ["display: none;"] or each_address.xpath('./@style') ==["display:none;"]:
  54.                 pass
  55.             else:
  56.                 if len(each_address.xpath('./text()')) != 0:
  57.                     each_address_list.append(each_address.xpath('./text()')[0])      
  58.         info_dict['address'] = ''.join(each_address_list[:-1])+':'+each_address_list[-1]

  59.         info_dict['anonymity'] = each.xpath('./td[2]//text()')[0]
  60.         info_dict['protocal'] = each.xpath('./td[3]//text()')[0]
  61.         if info_dict['protocal'] == 'http':
  62.             if info_dict['address'] not in proxies_http:
  63.                 proxies_http.append(str(info_dict['address']))
  64.         elif info_dict['protocal'] == 'https':
  65.             if info_dict['address'] not in proxies_https:
  66.                 proxies_https.append(str(info_dict['address']))

  67.     print(proxies_http)
  68.     print(proxies_https)
  69.     return proxies_http, proxies_https
  70.    


  71. if __name__ == '__main__':
  72.    
  73.     url_https = 'https://202020.ip138.com/'
  74.     url_http = 'http://httpbin.org/ip'
  75.    
  76.    
  77.     def main():
  78.         proxies_http, proxies_https = get_proxies()
  79.         pool = ThreadPool(5)
  80.         print('main start')
  81.         for each_proxy in proxies_http:
  82.             proxy = {"http":f"{each_proxy}"}
  83.             pool.apply_async(open_url_http, (proxy,))
  84.         for each_proxy in proxies_https:
  85.             proxy = {"https":f"{each_proxy}"}
  86.             pool.apply_async(open_url_https, (proxy,))
  87.         pool.close()
  88.         pool.join()
  89.         print('main over')

  90.     for i in range(5):
  91.         main()
  92.         time.sleep(0.5)
  93.    
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-15 18:37:33 | 显示全部楼层
本帖最后由 suchocolate 于 2020-11-15 18:43 编辑
兰竹皋 发表于 2020-11-15 15:19
你好,还在吗?能帮我试试这代码吗?
我连续在www.goubanjia.com上爬了数百代理ip没一个可以用,很奇 ...


得联系客服要免费试用账号,他们贴出来的已经提示不保证可用了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-29 15:50

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表