马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 Twilight6 于 2020-4-22 13:55 编辑
看小甲鱼课程爬IP,我就模仿着他写了~~
第一次写爬虫,嘿嘿~~~
爬成功了!虽然现在还是非常基础,不过还是感觉很有成就感!
顺便弱弱的问下,课后作业到53讲之后怎么没得了?
from urllib.request import Request,urlopen
import re
headers = {'User-Agent':"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:24.0) Gecko/20100101 Firefox/24.0"}
# 访问页面
def open_url(url):
request = Request(url,headers=headers)
response = urlopen(request)
html = response.read().decode()
return html
# 获取IP地址
def get_ip_data(html):
ip_list = re.findall(r'(\d+\.\d+\.\d+\.\d+)',html)
ip_port = re.findall(r'<td data-title="PORT">(\d+)</td>',html)
ip_type = re.findall(r'<td data-title="类型">(\w+)</td>',html)
ip_anonymous_degrees = re.findall(r'<td data-title="匿名度">(.+)</td>',html)
ip_final_time = re.findall(r'<td data-title="最后验证时间">(.+)</td>',html)
for i in range(len(ip_list)):
print('IP:{0:^15}|PORT:{1:^10}|类型:{2:^10}|匿名度:{3:^10}|最后验证时间:{4:^25}|'.format(ip_list[i],ip_port[i],ip_type[i],ip_anonymous_degrees[i],ip_final_time[i]))
if __name__=='__main__':
url = 'https://www.kuaidaili.com/free/'
get_ip_data(open_url(url))
|