[已解决]爬虫问题表达式

20192019 · 发表于 2019-9-22 15:26:17

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 20192019 于 2019-9-22 15:31 编辑

<a href="http://www.qydaili.com/" target="_blank" data-type="img"><img src="img/hgg.png"></a><br><script type="text/javascript" src="js/jquery.min.js"></script>
<div id="adarea"onclick=location.href='http://www.qydaili.com/' style="cursor: pointer;display: none;position: fixed;right:15px;bottom:15px;width: 285px;height: 250px;background: url(/img/fkgg.png) no-repeat;">
<div id="adclose" style="cursor: pointer; position: absolute; top: 0px; right: 0px; display: block; width: 20px; height: 20px;font-family: cursive;background: url(img/close.png) no-repeat;" title="点击关闭"> </div>
</div>
<script type="text/javascript">
$(function(){
$('#adarea').slideDown(500);
$('#adclose').click(function(){
$('#adarea').slideUp(500);
});
});
</script>我只想要下面的ip怎么搞？
176.235.80.103:9090<br>177.125.243.12:3128<br>62.151.243.205:8080<br>188.17.148.31:36080<br>118.97.180.132:30793<br>77.38.21.239:8080<br>41.77.23.221:41049<br>117.197.116.89:8080<br>118.174.234.195:52236<br>130.117.173.182:60078<br>高效高匿名代理IP提取地址：http://www.qydaili.com/

我的代码：
import urllib.request
import re
url='http://www.89ip.cn/tqdl.html?api=1&num=10'

na=urllib.request.urlopen(url).read().decode('utf-8')
pat='</script>[0-9].*'
name=re.compile(pat,re.S).findall(na)
print(name)

最佳答案

月排行榜 / 总排行榜

kaohsing

2019-9-22 16:34:41

import re, requests
url = 'http://www.89ip.cn/tqdl.html?api=1&num=10'
html = requests.get(url).text
pat = '(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})'
name = re.findall(pat, html, re.M)
print(name)

复制代码

跳转到最佳答案楼层

kaohsing · 发表于 2019-9-22 16:34:41

这个最佳答案由 kaohsing 给出，感谢 kaohsing 的回答。

单击隐藏图章

import re, requests
url = 'http://www.89ip.cn/tqdl.html?api=1&num=10'
html = requests.get(url).text
pat = '(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})'
name = re.findall(pat, html, re.M)
print(name)

复制代码

彩虹七号 · 发表于 2019-9-22 16:37:11

本帖最后由彩虹七号于 2019-9-22 16:59 编辑

pat = '((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))'

20192019 · 发表于 2019-9-22 21:29:45

彩虹七号发表于 2019-9-22 16:37
pat = '((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) ...

大佬，你的代码有点高深，能否加个文字说明？

20192019 · 发表于 2019-9-22 21:57:54

彩虹七号发表于 2019-9-22 16:37
pat = '((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) ...

还有端口号，求解

20192019 · 发表于 2019-9-22 22:30:01

kaohsing 发表于 2019-9-22 16:34

import urllib.request
import re
for i in range(11):
   url='http://www.89ip.cn/tqdl.html?api=1&num=10'

   na=urllib.request.urlopen(url).read().decode('utf-8')
   #pat='''((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))(:\\d.*?<))
   #'''
   pat=';\n</script>.*?([0-9][0-9]|\d.*?)<br>'

   name=re.compile(pat,re.S).findall(na)
   print(name)
看一下能不能改进一下ip和端口都要

20192019 · 发表于 2019-9-23 00:21:33

kaohsing 发表于 2019-9-22 16:34

你的代码简单，容易

大西瓜吃吃 · 发表于 2019-9-23 00:26:30

import re
#注:content为源码,结果去除最后一个元素即可
content = content.replace("\n", "")
result = re.sub(r"<a href.*script>","",content).split("<br>")
print(result)

复制代码

大西瓜吃吃 · 发表于 2019-9-23 00:29:10

大西瓜吃吃发表于 2019-9-23 00:26

注明:该方法不需要考虑该如何匹配IP的地址,简单易懂

大西瓜吃吃 · 发表于 2019-9-23 00:46:59

大西瓜吃吃发表于 2019-9-23 00:26

import re

result = re.sub(r"<a href.*script>","",content.replace("\n", "")).split("<br>")[:-1]

print(result)

可以写成一句

kaohsing · 发表于 2019-9-23 08:29:37

20192019 发表于 2019-9-22 22:30
import urllib.request
import re
for i in range(11):

import re, requests
url = 'http://www.89ip.cn/tqdl.html?api=1&num=10'
html = requests.get(url).text
print(html)
pat = '(\d+\.\d+\.\d+\.\d+\:\d+)'
name = re.findall(pat, html, re.M)
print(name)

复制代码

账号		自动登录	找回密码
密码			立即注册