Twilight6 发表于 2020-4-22 13:34:23

【爬虫初体验】爬取免费IP代理~

本帖最后由 Twilight6 于 2020-4-22 13:55 编辑

看小甲鱼课程爬IP,我就模仿着他写了~~{:9_219:}
第一次写爬虫,嘿嘿~~~{:9_227:}
爬成功了!虽然现在还是非常基础,不过还是感觉很有成就感!{:9_228:}


顺便弱弱的问下,课后作业到53讲之后怎么没得了?{:9_222:}



from urllib.request import Request,urlopen
import re

headers = {'User-Agent':"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:24.0) Gecko/20100101 Firefox/24.0"}
# 访问页面

def open_url(url):

    request = Request(url,headers=headers)
    response = urlopen(request)
    html = response.read().decode()

    return html

# 获取IP地址
def get_ip_data(html):

    ip_list = re.findall(r'(\d+\.\d+\.\d+\.\d+)',html)
    ip_port = re.findall(r'<td data-title="PORT">(\d+)</td>',html)
    ip_type = re.findall(r'<td data-title="类型">(\w+)</td>',html)
    ip_anonymous_degrees = re.findall(r'<td data-title="匿名度">(.+)</td>',html)
    ip_final_time = re.findall(r'<td data-title="最后验证时间">(.+)</td>',html)

    for i in range(len(ip_list)):
      print('IP:{0:^15}|PORT:{1:^10}|类型:{2:^10}|匿名度:{3:^10}|最后验证时间:{4:^25}|'.format(ip_list,ip_port,ip_type,ip_anonymous_degrees,ip_final_time))

if __name__=='__main__':
    url = 'https://www.kuaidaili.com/free/'
    get_ip_data(open_url(url))

qiuyouzhi 发表于 2020-4-22 13:39:21

是的,53讲后面就没了

小吉吉0 发表于 2020-4-22 13:42:13

我也纳闷为什么53讲之后没了,虽然我才看到20多讲哈哈

_2_ 发表于 2020-4-22 13:44:27

不错啊{:10_256:}

老八秘制 发表于 2020-4-22 13:54:04

对,53之后确实没了

Twilight6 发表于 2020-4-22 13:56:25

_2_ 发表于 2020-4-22 13:44
不错啊

{:10_254:}谢谢谷粒~

Twilight6 发表于 2020-4-22 13:56:56

qiuyouzhi 发表于 2020-4-22 13:39
是的,53讲后面就没了

{:10_282:}那之后一半的视频拿什么锻炼

qiuyouzhi 发表于 2020-4-22 14:00:18

Twilight6 发表于 2020-4-22 13:56
那之后一半的视频拿什么锻炼

自己写呗
不能光靠着课后作业

罗巴乔 发表于 2020-4-22 15:14:38

优秀{:5_108:}

Twilight6 发表于 2020-4-22 15:54:51

qiuyouzhi 发表于 2020-4-22 14:00
自己写呗
不能光靠着课后作业

好趴{:10_256:}

Twilight6 发表于 2020-4-22 15:55:46

罗巴乔 发表于 2020-4-22 15:14
优秀

{:9_235:} (得意的尾巴翘贼高)

Twilight6 发表于 2020-4-22 15:58:27

本帖最后由 Twilight6 于 2020-4-22 16:18 编辑

Twilight6 发表于 2020-4-22 15:55
(得意的尾巴翘贼高)


@Xiaolo66

用PyCharm   ——》》》搓我

东方优源 发表于 2020-5-17 22:30:59

不错,可以加个采集下一页,所有页面,然后保存txt

青出于蓝 发表于 2020-5-19 21:01:34

大佬nb啊,不过说实在的,这个Pytharm(看着楼主好像是用的这个)不是非常好用

Twilight6 发表于 2020-5-19 21:07:27

青出于蓝 发表于 2020-5-19 21:01
大佬nb啊,不过说实在的,这个Pytharm(看着楼主好像是用的这个)不是非常好用

Pycharm 适合做大项目,也是python最火的编译器之一,初学者用不习惯,掌握了一定技巧就很非常好用了~(我一开始就是用PyCharm,现在跳不出这个坑了)

青出于蓝 发表于 2020-5-19 21:08:34

Twilight6 发表于 2020-5-19 21:07
Pycharm 适合做大项目,初学者用不习惯,掌握了一定技巧就很非常好用了~

我也用过,主要是做web,py在哪总是不好操作,容易混了

Twilight6 发表于 2020-5-19 21:09:46

青出于蓝 发表于 2020-5-19 21:08
我也用过,主要是做web,py在哪总是不好操作,容易混了

web 我不怎么清楚,没学哈哈

青出于蓝 发表于 2020-5-19 21:11:54

Twilight6 发表于 2020-5-19 21:09
web 我不怎么清楚,没学哈哈

哈~大佬们还是对这种相应类的语言感兴趣~~~

Twilight6 发表于 2020-5-19 21:12:55

青出于蓝 发表于 2020-5-19 21:11
哈~大佬们还是对这种相应类的语言感兴趣~~~

{:10_245:} 我现在只会Python的皮毛,其他语言一窍不通

青出于蓝 发表于 2020-5-19 21:14:48

Twilight6 发表于 2020-5-19 21:12
我现在只会Python的皮毛,其他语言一窍不通

大佬目前对py的学习程度,教导我是没问题了
页: [1] 2
查看完整版本: 【爬虫初体验】爬取免费IP代理~