[已解决]数据结尾不规整，正则该咋办？（正则语法的边界断言）

blackantt · 发表于 2022-8-31 10:40:18

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 blackantt 于 2022-9-1 11:47 编辑

数据大致有如下4种情况，想把最多2种词性的第一部分取出来

------------------------------------------------------------------------ 2行词性，都取2行第1个;以前的部分，
<div class="trans-container">

<ul>
   <li>n. 狗，犬；公狗，公狐，公狼；质量极差的东西；无吸引力的女子；卑鄙小人，无赖；<美，非正式>朋友</li>
   <li>v. 困扰，纠缠；跟踪，尾随</li>
</ul>
</div>
</div>
------------------------------------------------------------------------------------2行词性，想取2行第一个;号以前的部分，可是第2行偏偏没有;号
<div class="trans-container">

<ul>
   <li>n. 狗，犬；公狗，公狐，公狼；质量极差的东西；无吸引力的女子；卑鄙小人，无赖；<美，非正式>朋友</li>
   <li>v. 困扰，纠缠</li>
</ul>
</div>
</div>

------------------------------------------------------------------------------------这个只有1行词性，就只取第1个分号之前的

<div class="trans-container">

<ul>
   <li>n. 狗，犬；公狗，公狐，公狼；质量极差的东西；无吸引力的女子；卑鄙小人，无赖；<美，非正式>朋友</li>
</ul>
</div>
</div>

---------------------------------------------------------------------------------这个只有1行词性，就只取第1个分号之前的(实际上数据里根本就没有；号)
<div class="trans-container">

<ul>
   <li>n. 狗，犬</li>
</ul>
</div>
</div>

最佳答案

月排行榜 / 总排行榜

Brick_Porter

2022-9-1 10:12:05

regex_1 = re.compile(r'(?<=trans-container).*?(?=\/ul)', re.DOTALL)

regex_2 = re.compile(r'(?<=<li>).+?(?=(?=[；;])|(?=<\/li>))')

我来解释下
第一个正则用来缩小范围，把匹配范围控制在trans-container到第一个</ul>之间；
第二个正则真正用来匹配你要的带词性的释义，这个正则分成了三个部分：
1. 如果前面是<li>
2. 真正要匹配的内容
3. 如果后面是中文分号或者英文分号，又或者是</li>
为了让你可以直接使用匹配到的内容我就这么写了

跳转到最佳答案楼层

鱼cpython学习者 · 发表于 2022-8-31 11:32:46

re.compile(r'trans-container">.+?；', re.DOTALL)

陶远航 · 发表于 2022-8-31 15:03:54

学习一下

cflying · 发表于 2022-8-31 20:48:38

ss='''
<div class="trans-container">

   <ul>
     <li>n. 狗，犬；公狗，公狐，公狼；质量极差的东西；无吸引力的女子；卑鄙小人，无赖；<美，非正式>朋友</li>
     <li>v. 困扰，纠缠；跟踪，尾随</li>
    </ul>
    </div>
    </div>
'''
print(re.findall('trans-container">\s+.\S+\s+.+?；',ss))

blackantt · 发表于 2022-9-1 09:35:26

鱼cpython学习者发表于 2022-8-31 11:32

sorry，昨天帖子还没写完，不知咋的它就把半截内容发出来了。今天才看到。现在原数据有4种情况，这种该怎么弄呢？

blackantt · 发表于 2022-9-1 09:39:10

cflying 发表于 2022-8-31 20:48

sorry，昨天帖子还没写完，不知咋的它就把半截内容发出来了。今天才看到。现在原数据有4种情况，这种该怎么弄呢？

Brick_Porter · 发表于 2022-9-1 09:58:31

blackantt 发表于 2022-9-1 09:39
sorry，昨天帖子还没写完，不知咋的它就把半截内容发出来了。今天才看到。现在原数据有4种情况，这种该 ...

针对你说的四种情况，我自己用正则试了试，用两个正则表达式可以完成任务，不知道你接不接受
第一个正则用来确定tran-container范围，第二个正字用于提取你要的内容

blackantt · 发表于 2022-9-1 10:01:49

Brick_Porter 发表于 2022-9-1 09:58
针对你说的四种情况，我自己用正则试了试，用两个正则表达式可以完成任务，不知道你接不接受

好啊，请贴出来。
那最后是用if。。else来条件匹配覆盖这4种情况吗？

Brick_Porter · 发表于 2022-9-1 10:05:10

blackantt 发表于 2022-9-1 10:01
好啊，请贴出来。
那最后是用if。。else来条件匹配覆盖这4种情况吗？

稍等，确实用到了类似if ... else这样的结构，不过是正则表达式版本的

Brick_Porter · 发表于 2022-9-1 10:12:05

这个最佳答案由 Brick_Porter 给出，感谢 Brick_Porter 的回答。

单击隐藏图章

regex_1 = re.compile(r'(?<=trans-container).*?(?=\/ul)', re.DOTALL)

regex_2 = re.compile(r'(?<=<li>).+?(?=(?=[；;])|(?=<\/li>))')

我来解释下
第一个正则用来缩小范围，把匹配范围控制在trans-container到第一个</ul>之间；
第二个正则真正用来匹配你要的带词性的释义，这个正则分成了三个部分：
1. 如果前面是<li>
2. 真正要匹配的内容
3. 如果后面是中文分号或者英文分号，又或者是</li>
为了让你可以直接使用匹配到的内容我就这么写了

Brick_Porter · 发表于 2022-9-1 10:17:08

(?<=<li>)这个语句其实是个条件语句，意思是如果前面是<li>。请注意，这个语句只会匹配位置

.+?就是我们真正要匹配的内容

(?=(?=[；;])|(?=<\/li>))这条语句也是一个条件语句，内部它又把两个条件句用|（或者的意思）合并了，说人话就是如果后面是中英文分号或者</li>。请注意，这条语句同样不匹配字符，只匹配位置

blackantt · 发表于 2022-9-1 10:29:12

Brick_Porter 发表于 2022-9-1 10:12
我来解释下
第一个正则用来缩小范围，把匹配范围控制在trans-container到第一个之间；
第二个正则真正用 ...

感谢，我学习下

blackantt · 发表于 2022-9-1 10:38:57

Brick_Porter 发表于 2022-9-1 10:17
(?

谢谢，这么详细的解释

blackantt · 发表于 2022-9-1 11:00:14

本帖最后由 blackantt 于 2022-9-1 11:09 编辑

Brick_Porter 发表于 2022-9-1 10:17
(?

再次感谢，第一次见到。我一直在用{}拼来拼去，总是不对。现在好了。

import re

ss='''
<div class="trans-container">

<ul>
<li>n. 狗，犬；公狗，公狐，公狼；质量极差的东西；无吸引力的女子；卑鄙小人，无赖；<美，非正式>朋友</li>
<li>v. 困扰，纠缠</li>
</ul>
</div>
</div>
'''
regex_1 = re.compile(r'(?<=trans-container).*?(?=\/ul)', re.DOTALL)
regex_2 = re.compile(r'(?<=<li>).+?(?=(?=[；])|(?=<\/li>))')
ab = re.findall(regex_2, ss)

if re.findall(regex_1,ss) and re.findall(regex_2,ss):
#print(re.findall(regex_2, ss))
print(ab[0],'\n',ab[1],sep='')

Brick_Porter · 发表于 2022-9-1 11:23:42

blackantt 发表于 2022-9-1 11:00
再次感谢，第一次见到。我一直在用{}拼来拼去，总是不对。现在好了。

我是用的这个正则语法叫做边界断言，不是很好理解，我自己也是找了很多教程对照看才理解的。如果你想进一步了解可以联系我

blackantt · 发表于 2022-9-1 11:46:44

Brick_Porter 发表于 2022-9-1 11:23
我是用的这个正则语法叫做边界断言，不是很好理解，我自己也是找了很多教程对照看才理解的。如果你想进一 ...

好的

账号		自动登录	找回密码
密码			立即注册