鬼少 发表于 2024-12-1 00:31:55

贪婪模式与非贪婪模式

import re

>>>s = '<html><title>I want to top cloud<title><html>'
                     
>>>re.search(r'<.+>',s)
                     
>>><re.Match object; span=(0, 45), match='<html><title>I want to top cloud<title><html>'>

>>>re.search(r'<.+?>',s)
                     
>>><re.Match object; span=(0, 6), match='<html>'>

请问上述两个正则表达式的执行过程分别是什么样的? 谢谢

FishC 发表于 2024-12-1 00:32:01

在正则表达式中,贪婪模式和非贪婪模式决定了匹配时的取舍策略:

1. **贪婪模式**(也就是默认模式):它会尝试匹配尽可能多的字符。   
   示例:`re.search(r'w.*t', s)`
   - `w.*t`:从 `w` 开始,匹配任意数量的字符 `.*` 直到最后一个 `t`。

2. **非贪婪模式**:它会尝试匹配尽可能少的字符。通过在量词后面加 `?` 实现。
   示例:`re.search(r'w.*?t', s)`
   - `w.*?t`:从 `w` 开始,匹配尽可能少的字符 `.*?` 直到第一个 `t`。

根据你提供的代码,可能是遗漏了正则表达式。若补充正则表达式后,你的代码应分别表现出贪婪和非贪婪两种匹配方式。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

很cool的阳 发表于 2024-12-1 10:18:23

第一个正则表达式 r'<.+>':
.+ 表示匹配任意字符(.)一次或多次(+)。
这个正则表达式会匹配从字符串 s 中的第一个 < 开始,直到遇到的第一个 > 结束的任意字符序列。由于没有指定非贪婪匹配(?),所以它会尽可能多地匹配字符,直到遇到最后一个 >re.search(r'<.+>',s) 匹配了整个字符串 <html><title>I want to top cloud<title><html>,因为它从第一个 < 开始,一直匹配到字符串末尾的最后一个 >。
第二个正则表达式 r'<.+?>':
.+? 表示匹配任意字符(.)一次或多次(+),但是是非贪婪的(?),即尽可能少地匹配字符。
这个正则表达式会匹配从字符串 s 中的第一个 < 开始,直到遇到的第一个 > 结束的任意字符序列,但是它会在遇到第一个 > 时停止匹配,而不是继续寻找后面的 >。
re.search(r'<.+?>',s) 只匹配了 <html>,因为它在遇到第一个 > 后就停止了匹配,而不是继续匹配到字符串末尾。

小甲鱼的二师兄 发表于 2024-12-1 15:05:42

正则表达式一:r'<.+>'

匹配方式:贪婪模式

匹配结果:<html><title>I want to top cloud<title><html>

解释:


[*]< 开始匹配。
[*].+ 尽可能多地匹配任意字符。
[*]> 结束匹配。

过程:从第一个 < 开始,一直匹配到最后一个 >,覆盖整个字符串。

小甲鱼的二师兄 发表于 2024-12-1 15:06:05

正则表达式二:r'<.+?>'

匹配方式:非贪婪模式

匹配结果:<html>

解释:


[*]< 开始匹配。
[*].+? 尽可能少地匹配任意字符。
[*]> 结束匹配。

过程:从第一个 < 开始,尽快找到下一个 >,只匹配 <html>。
页: [1]
查看完整版本: 贪婪模式与非贪婪模式