[已解决]【正则表达式】匹配出错。。。原谅我实在找不了不同

脑子 · 发表于 2018-2-8 23:14:43

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由脑子于 2018-2-8 23:17 编辑

对于以下俩坨：

<a href="/htmlnews/2018/2/401948.shtm" target="_blank" onmouseover="javascript:this.style.color='#ba1414'" onmouseout="javascript:this.style.color='#333333'" style="color: rgb(51, 51, 51);">六年200高校更名：想成名校不能只改校名</a>
<a href="/htmlnews/2018/2/402593.shtm" target="_blank">
香港设立抗战博物馆
</a>

复制代码

我想把

htmlnews/2018/2/401948.shtm" target="_blank" onmouseover="javascript:this.style.color='#ba1414'" onmouseout="javascript:this.style.color='#333333'" style="color: rgb(51, 51, 51);">六年200高校更名：想成名校不能只改校名</a>

复制代码

和

htmlnews/2018/2/402593.shtm" target="_blank">
香港设立抗战博物馆
</a>

复制代码

用正则表达式给找出来。

然而。。。

>>> p=ur'/htmlnews/[^\n]+.shtm"[^。]*</a>'
>>> urls=re.findall(p,'''cellspacing="0" width="100%">
<tr onmouseover="javascript:this.style.backgroundColor='#f5ecec'" onmouseout="javascript:this.style.backgroundColor=''">
<td align="left" valign="top" width="60%" style="font-size:5px">
<img src="/images/t11.gif" alt="" /> <a href='/htmlnews/2018/2/402590.shtm' target="_blank" >
武警部队组织第一期新军事训练大纲集训
</a><a href="/htmlnews/2018/2/401948.shtm" target="_blank" onmouseover="javascript:this.style.color='#ba1414'" onmouseout="javascript:this.style.color='#333333'" style="color: rgb(51, 51, 51);">六年200高校更名：想成名校不能只改校名</a>''')
>>> urls
['/htmlnews/2018/2/401948.shtm" target="_blank" onmouseover="javascript:this.style.color=\'#ba1414\'" onmouseout="javascript:this.style.color=\'#333333\'" style="color: rgb(51, 51, 51);">\xc1\xf9\xc4\xea200\xb8\xdf\xd0\xa3\xb8\xfc\xc3\xfb\xa3\xba\xcf\xeb\xb3\xc9\xc3\xfb\xd0\xa3\xb2\xbb\xc4\xdc\xd6\xbb\xb8\xc4\xd0\xa3\xc3\xfb</a>']

复制代码

如上，我的正则只能匹配其中一个

急求解！！！

最佳答案

月排行榜 / 总排行榜

lies_for_L

2018-2-9 20:35:26

本帖最后由 lies_for_L 于 2018-2-9 20:57 编辑

脑子发表于 2018-2-9 14:38
仍然不行。。。
我发现也许原因是含有换行符的缘故？

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
.*?
.*?
.*?
.*?
.*?
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

# 测试代码
import re
a = '''<a href="/htmlnews/2018/2/401948.shtm" target="_blank" onmouseover="javascript:this.style.color='#ba1414'" onmouseout="javascript:this.style.color='#333333'" style="color: rgb(51, 51, 51);">六年200高校更名：想成名校不能只改校名</a>
<a href="/htmlnews/2018/2/402593.shtm" target="_blank">
香港设立抗战博物馆
</a>'''
print("p=r'/htmlnews/.+?.shtm".*?</a>'测试开始")
p=r'/htmlnews/.+?.shtm".*?</a>'
x=re.compile(p,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1,10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')
print("re_pattern = '<a href="/htmlnews/[\\w/]+.*?</a>'测试开始")
re_pattern = '<a href="/htmlnews/[\\w/]+.*?</a>'
x=re.compile(re_pattern,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1, 10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')
print("re_pattern = '/htmlnews/[\\w/]+\\.shtm'测试开始")
re_pattern = '/htmlnews/[\\w/]+\\.shtm'
x=re.compile(re_pattern,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1, 10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')
print("re_pattern = '<a href="(/htmlnews/[\\w/]+\\.shtm).*?</a>'测试开始")
re_pattern = '<a href="(/htmlnews/[\\w/]+\\.shtm).*?</a>'
x=re.compile(re_pattern,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1, 10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')

复制代码

结果

跳转到最佳答案楼层

lies_for_L · 发表于 2018-2-9 09:46:49

既然是网页就不要直接用正则提取，正则一般是用在最后数据提取的，之前的可以用bs4等等做处理

# 整个含/htmlnews/ 的a标签
re_pattern = '<a href="/htmlnews/[\\w/]+.*?</a>'
# 只有href
re_pattern = '/htmlnews/[\\w/]+\\.shtm'
re_pattern = '<a href="(/htmlnews/[\\w/]+\\.shtm).*?</a>'

复制代码

脑子 · 发表于 2018-2-9 14:38:20

lies_for_L 发表于 2018-2-9 09:46
既然是网页就不要直接用正则提取，正则一般是用在最后数据提取的，之前的可以用bs4等等做处理

仍然不行。。。
我发现也许原因是含有换行符的缘故？

于是我修改了代码

>>> p=ur'/htmlnews/.+.shtm".*</a>'
>>> x=re.compile(p,re.DOTALL)
>>> x.findall(s)#在DOTALL模式下，符号'.'可以匹配包括换行符在内的所有字符

复制代码

：

仍然不行？？？

lies_for_L · 发表于 2018-2-9 20:35:26

这个最佳答案由 lies_for_L 给出，感谢 lies_for_L 的回答。

单击隐藏图章

本帖最后由 lies_for_L 于 2018-2-9 20:57 编辑

脑子发表于 2018-2-9 14:38
仍然不行。。。
我发现也许原因是含有换行符的缘故？

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
.*?
.*?
.*?
.*?
.*?
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

# 测试代码
import re
a = '''<a href="/htmlnews/2018/2/401948.shtm" target="_blank" onmouseover="javascript:this.style.color='#ba1414'" onmouseout="javascript:this.style.color='#333333'" style="color: rgb(51, 51, 51);">六年200高校更名：想成名校不能只改校名</a>
<a href="/htmlnews/2018/2/402593.shtm" target="_blank">
香港设立抗战博物馆
</a>'''
print("p=r'/htmlnews/.+?.shtm".*?</a>'测试开始")
p=r'/htmlnews/.+?.shtm".*?</a>'
x=re.compile(p,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1,10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')
print("re_pattern = '<a href="/htmlnews/[\\w/]+.*?</a>'测试开始")
re_pattern = '<a href="/htmlnews/[\\w/]+.*?</a>'
x=re.compile(re_pattern,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1, 10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')
print("re_pattern = '/htmlnews/[\\w/]+\\.shtm'测试开始")
re_pattern = '/htmlnews/[\\w/]+\\.shtm'
x=re.compile(re_pattern,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1, 10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')
print("re_pattern = '<a href="(/htmlnews/[\\w/]+\\.shtm).*?</a>'测试开始")
re_pattern = '<a href="(/htmlnews/[\\w/]+\\.shtm).*?</a>'
x=re.compile(re_pattern,re.DOTALL)
result = x.findall(a)
print('匹配结果:%d'%len(result))
for i, count in zip(result,range(1, 10)):
print('第%d条匹配结果: %s'%(count, i))
print('###########################################################')

复制代码

结果

bit7maker · 发表于 2018-2-16 22:05:11

小甲鱼曾经说，面临一个问题，如果你要用正则表达式来解决，那么现在你就有两个问题了

脑子 · 发表于 2018-2-17 01:57:15

bit7maker 发表于 2018-2-16 22:05
小甲鱼曾经说，面临一个问题，如果你要用正则表达式来解决，那么现在你就有两个问题了

感觉到了正则的恶意

账号		自动登录	找回密码
密码			立即注册