Python 爬取高匿 IP,Python交流,编程语言专区,鱼C论坛

qiuyouzhi 发表于 2020-3-25 18:04:09

Python 爬取高匿 IP

Python 爬取高匿 IP

网址：https://www.xicidaili.com/

需求：
爬取网页里的高匿IP和端口，

并保存进文件里。

用到的模块：

requests：把网页下载下来。

bs4: 解析利器，有了它，妈妈再也不用担心我不喜欢写正则了{:10_278:} ！

爬取思路

先导入模块：

from requests import get
from bs4 import BeautifulSoup as BS

OK,然后写打开URL的函数open_url():

def open_url(url):
# 写上 headers 好习惯
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
res = get(url)
return res

写道这一步就差不多了，开始分析网页。

翻一翻网页源代码，很容易发现所有

的IP和端口都在<td>标签里面：

太简单了！直接写出get_IP():

def get_IP(res):
soup = BS(res.text, "html.parser")
target = soup.find_all("td") # 找出所有的td标签
f = open("IP.txt", "w")
for each in target:
f.write(each.text) # 写入内容
f.close()

到了这一步就差不多了，直接写main吧：

def main():
url = 'https://www.xicidaili.com/'
res = open_url(url)
get_IP(res)

if __name__ == "__main__":
main()

大功告成！可以看看文件啦！

wp231957 发表于 2020-3-25 18:37:54

可惜100个有一个能用就不错了

qiuyouzhi 发表于 2020-3-25 18:43:36

wp231957 发表于 2020-3-25 18:37
可惜100个有一个能用就不错了

你试试呗？
我也不知道，平常爬虫都不用代理的

qiuyouzhi 发表于 2020-5-18 15:51:02

test

_2_ 发表于 2020-5-18 15:52:27

qiuyouzhi 发表于 2020-5-18 15:51
test

写正则不好吗……{:10_266:}
re 在墙角哭泣……

qiuyouzhi 发表于 2020-5-18 15:55:01

_2_ 发表于 2020-5-18 15:52
写正则不好吗……
re 在墙角哭泣……

真男人都写XPath{:10_256:}

_2_ 发表于 2020-5-18 15:56:21

qiuyouzhi 发表于 2020-5-18 15:55
真男人都写XPath

不能靠实力写正则吗？
……那些写不出正则的弟弟{:10_256:}
--来自Zi___Min

qiuyouzhi 发表于 2020-5-18 15:59:08

_2_ 发表于 2020-5-18 15:56
不能靠实力写正则吗？
……那些写不出正则的弟弟
--来自Zi___Min

XPath可以直接复制的{:10_327:}

页: [1]

鱼C论坛's Archiver

Python 爬取高匿 IP