qiuyouzhi 发表于 2020-3-25 18:04:09

Python 爬取高匿 IP

Python 爬取高匿 IP

网址:https://www.xicidaili.com/

需求:
爬取网页里的高匿IP和端口,

并保存进文件里。

用到的模块:

requests:把网页下载下来。

bs4: 解析利器,有了它,妈妈再也不用担心我不喜欢写正则了{:10_278:} !


爬取思路

先导入模块:

from requests import get
from bs4 import BeautifulSoup as BS

OK,然后写打开URL的函数open_url():

def open_url(url):
    # 写上 headers 好习惯
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
    res = get(url)
    return res

写道这一步就差不多了,开始分析网页。

翻一翻网页源代码,很容易发现所有

的IP和端口都在<td>标签里面:



太简单了!直接写出get_IP():

def get_IP(res):
    soup = BS(res.text, "html.parser")
    target = soup.find_all("td") # 找出所有的td标签
    f = open("IP.txt", "w")
    for each in target:
      f.write(each.text) # 写入内容
    f.close()

到了这一步就差不多了,直接写main吧:

def main():
    url = 'https://www.xicidaili.com/'
    res = open_url(url)
    get_IP(res)

if __name__ == "__main__":
    main()

大功告成!可以看看文件啦!

wp231957 发表于 2020-3-25 18:37:54

可惜100个有一个能用就不错了

qiuyouzhi 发表于 2020-3-25 18:43:36

wp231957 发表于 2020-3-25 18:37
可惜100个有一个能用就不错了

你试试呗?
我也不知道,平常爬虫都不用代理的

qiuyouzhi 发表于 2020-5-18 15:51:02

test

_2_ 发表于 2020-5-18 15:52:27

qiuyouzhi 发表于 2020-5-18 15:51
test

写正则不好吗……{:10_266:}
re 在墙角哭泣……

qiuyouzhi 发表于 2020-5-18 15:55:01

_2_ 发表于 2020-5-18 15:52
写正则不好吗……
re 在墙角哭泣……

真男人都写XPath{:10_256:}

_2_ 发表于 2020-5-18 15:56:21

qiuyouzhi 发表于 2020-5-18 15:55
真男人都写XPath

不能靠实力写正则吗?
……那些写不出正则的弟弟{:10_256:}
--来自Zi___Min

qiuyouzhi 发表于 2020-5-18 15:59:08

_2_ 发表于 2020-5-18 15:56
不能靠实力写正则吗?
……那些写不出正则的弟弟
--来自Zi___Min

XPath可以直接复制的{:10_327:}
页: [1]
查看完整版本: Python 爬取高匿 IP