鱼C论坛

 找回密码
 立即注册
查看: 8823|回复: 25

[技术交流] 25 IP代理与IP代理池构建的两种方案实战

[复制链接]
发表于 2017-6-24 19:26:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
25 IP代理与IP代理池构建的两种方案实战

一、IP代理概述
IP代理就是让爬虫使用代理IP去爬取对方网站。

(1)什么是IP
      百科的解释:IP地址(英语:Internet Protocol Address)是一种在Internet上的给主机编址的方式,也称为网际协议地址。常见的IP地址,分为IPv4与IPv6两大类。所谓IP地址就是给每个连接在Internet上的主机分配的一个32bit地址。按照TCP/IP协议规定,IP地址用二进制来表示,每个IP地址长32bit,比特换算成字节,就是4个字节。例如一个采用二进制形式的IP地址是“00001010000000000000000000000001”,这么长的地址,人们处理起来也太费劲了。为了方便人们的使用,IP地址经常被写成十进制的形式,中间使用符号“.”分开不同的字节。于是,上面的IP地址可以表示为“10.0.0.1”,IP地址的这种表示法叫做“点分十进制表示法”。
      简单地说,IP地址就是上网主机所获得的一个唯一的编号。

(2)如何获取代理IP

      然后第二个问题就是如何获取代理IP。这可以在网上搜寻。免费的有,收费的也有。众所周知,收费的东西总是要好一点的。如果只是平时用做练习,用免费的就好。如果是公司或者个人专门获取数据,则需要选择优质的IP。
      免费的代理IP:西刺代理(http://www.xicidaili.com/)等等。专业的代理IP:大象代理(http://www.daxiangdaili.com/)等等。
      由于钱的问题,接下来的例子都是使用免费的代理。专业的代理IP主要是用接口来接收IP,比我们自己手动输入要方面。而且,其IP的质量也好,也就是稳定速度快。

二、IP代理池的第一种方式(适合代理IP稳定)

利用urllib.request.ProxyHandler添加代理IP。

(1)构建IP代理
<font size="3">ip = "61.191.41.130"
#利用urllib.request.ProxyHandler添加代理IP
proxy = urllib.request.ProxyHandler({"http":ip})
opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read().decode('utf-8')
print(len(data))</font>
111168
显然是成功的。如果访问不成功,应该是IP的问题。多次更换,应该就没问题了。

(2)构建IP代理池
与构建用户代理池相似,使用random模块。
import random
import urllib.request
ippools = [
    "61.191.41.130",
    "122.238.12.191",
    "222.161.56.166",
    ]

def ip(ippools):
    thisip = random.choice(ippools)
    print("当前代理IP:"+thisip)
    proxy = urllib.request.ProxyHandler({"http":thisip})
    opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)

for i in range(0,3):
    try:
        ip(ippools)
        url = "http://www.baidu.com"
        data1 = urllib.request.urlopen(url).read()
        print("访问成功"+str(len(data1)))
    except Exception as err:
        print(err)
结果:
当前代理IP:61.191.41.130
访问成功111457
当前代理IP:222.161.56.166
<urlopen error [WinError 10061] 由于目标计算机积极拒绝,无法连接。>
当前代理IP:222.161.56.166
<urlopen error [WinError 10061] 由于目标计算机积极拒绝,无法连接。>
可以发现,有的可以成功,有的则不行。这完全是由于代理IP的问题。免费的东西,只有忍忍。

三、IP代理池的第二种方式(适合代理IP不稳定):接口调用

由于并没有购买,这里只是简单的用代码演示一下。接口就是你付费了之后,别人会发给你的一个链接。我的代码里用的是免费的(其实是爬取免费的IP代理网战,把IP地址提取出来)。付费的会有专门的接口调用文档。

完整代码:
游客,如果您要查看本帖隐藏内容请回复


由于接口的问题,会出现一些问题。但思路是相同的:
调用了一次接口
<urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。>
当前用的IP:122.238.12.191
<urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。>
当前用的IP:222.161.56.166
<urlopen error [WinError 10061] 由于目标计算机积极拒绝,无法连接。>
list index out of range
list index out of range
list index out of range
list index out of range
list index out of range
list index out of range
list index out of range
调用了一次接口
<urlopen error [WinError 10061] 由于目标计算机积极拒绝,无法连接。>

总的来说,IP代理是比浏览器伪装较好的一种伪装技术。因为它利用的是别人上网的IP,因此就对己方上网IP进行的保护。如果你的可用IP足够多,并且有结合了浏览器伪装。那么,即使做大规模的爬取,对方也是很难发现是爬虫在访问网站。




评分

参与人数 1鱼币 +6 收起 理由
小甲鱼 + 6 支持楼主!

查看全部评分

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-7-31 13:32:01 | 显示全部楼层
来看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-8-15 10:52:01 | 显示全部楼层
非常感谢,我先好好看一下你的帖子,有问题再请教~谢谢了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-9-13 08:51:32 | 显示全部楼层
学习一下,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-9-20 11:09:18 | 显示全部楼层
mark
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-9-24 16:03:39 | 显示全部楼层
非常好的文档
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-9-27 10:58:26 | 显示全部楼层
感谢老铁分享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-11 19:10:47 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-10-16 11:32:40 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-10-20 11:54:20 | 显示全部楼层
一直在看你的笔记 ,思路清晰而且易懂
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-11-10 13:09:31 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-11-25 22:45:27 | 显示全部楼层
来学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-9 23:45:06 | 显示全部楼层
谢谢大神
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-6 16:18:42 | 显示全部楼层
不错,谢谢分享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-23 15:12:43 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-6-28 12:22:10 | 显示全部楼层
感谢大神!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-6-30 15:35:10 | 显示全部楼层
厉害了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-7-7 17:20:39 | 显示全部楼层
xiexie
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-11 19:59:28 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-2 08:03:01 | 显示全部楼层
谢谢楼主。。。。。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-24 09:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表