qq2576427955 发表于 2016-4-12 14:02:46

py实时自动获取免费代理ip300个

本帖最后由 ~风介~ 于 2016-4-13 12:18 编辑

求喷
求意见

#coding=utf-8
#每天自动获取ip并保存到响应文件夹
import urllib.request
import re
import random
import time
import os
#首次调用会自动更新ip库
# 更新ip库
def updateIp():
    list=[]
    url="http://www.xicidaili.com/nn/"
    for i in range(1,4):
      url+=str(i)
      req = urllib.request.Request(url)
      req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0")
      response = urllib.request.urlopen(req)
      html = response.read().decode("utf-8")
      re1=re.compile(r"(({0,1}\d{0,1}|2{0,1}\d|25)\.){3}({0,1}\d{0,1}|2\d|25)</td>\n(\s){1,}<td>\d{1,5}")
      for each_ip in re.finditer(re1,html):
            list.append(each_ip.group().replace("</td>\n      <td>",":"))
    unit = ["年" , "月" , "日" , "时" , "分" , "秒"]
    time1 = time.localtime()
    result = ""
    for i in range(6):
      result += str(time1)+str(unit)
    print("ip库更新的时间为:"+result+"ip库存:"+str(len(list)))
    return list

def getIp():
    return random.choice(iplist)

iplist = updateIp()
print(getIp())

~风介~ 发表于 2016-4-13 12:20:09

代码简单粗暴,适合作为爬虫的一部分!{:10_256:}

qq2576427955 发表于 2016-4-14 11:40:15

~风介~ 发表于 2016-4-13 12:20
代码简单粗暴,适合作为爬虫的一部分!

大神求带
{:5_109:}

不必多说 发表于 2016-4-14 21:11:25

牛逼,就是这么简单粗暴

隔壁老朱 发表于 2016-4-16 14:07:24

支持楼主

cold2wind 发表于 2016-4-24 11:09:18

支持支持,太强了

dvdvdv 发表于 2016-4-25 10:18:34

不错,学习了!

O是qiu迷 发表于 2016-4-26 11:29:39

支持高手,支持共享

爱,不解释 发表于 2016-4-27 08:59:47

夜殇桑 发表于 2016-5-13 16:15:35

Favor 发表于 2016-7-7 11:43:01

感谢楼主分享~ 请问响应文件夹是哪个?

鱼丸乌冬面 发表于 2016-7-21 04:26:16

6666666666666

ELI_ 发表于 2016-7-24 20:35:33

高手!!!!

niliuhe 发表于 2016-9-3 09:18:09

过来学习下{:5_91:}

shokunin 发表于 2019-7-3 14:56:05

Favor 发表于 2016-7-7 11:43
感谢楼主分享~ 请问响应文件夹是哪个?

同问
页: [1]
查看完整版本: py实时自动获取免费代理ip300个