鱼C论坛

 找回密码
 立即注册
查看: 2184|回复: 11

[已解决]正则表达式,找出两边是空格或尽头的字符串,怎么写

[复制链接]
发表于 2020-3-14 11:59:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 hrp 于 2020-3-14 12:04 编辑

想找出所有符合两边是空格或者尽头的字符串。
比如原字符串:
  1. string1 = 'abc     de.f g hijk6'
  2. string2 = 'lmn'
  3. # 原字符串中可能出现任意字符(空白字符只会出现空格),不会出现换行。
复制代码


现在我想找出:
  1. # string1:['abc', 'de.f', 'g', 'hijk6']
  2. # string2:['lmn']
复制代码

应该怎么写正则表达式?(一个表达式,两个原字符串都能找出结果)

不用split。
最佳答案
2020-3-14 12:36:03
本帖最后由 一个账号 于 2020-3-14 12:40 编辑

用 for 循环写:

  1. def calc(func):
  2.     def wrapper(*args, **kwargs):
  3.         import time
  4.         
  5.         start = time.perf_counter()
  6.         
  7.         ret = func(*args, **kwargs)

  8.         during = f"{(time.perf_counter() - start) * 1000 : .3f}"

  9.         print(f"运行时长 : {during} 毫秒")

  10.         return ret
  11.    
  12.     return wrapper

  13. @calc
  14. def func(str1):
  15.     list1 = []
  16.     temp = ""

  17.     for i in str1[:]+" ":
  18.         if not i.isspace():
  19.             temp += i
  20.             
  21.         elif temp:
  22.             list1.append(temp)
  23.             temp = ""

  24.     return list1

  25. if __name__ == "__main__":
  26.     str1 = "abc     de.f g hijk6"
  27.     str2 = "lmn"

  28.     print(func(str1))
  29.     print(func(str2))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-3-14 12:36:03 | 显示全部楼层    本楼为最佳答案   
本帖最后由 一个账号 于 2020-3-14 12:40 编辑

用 for 循环写:

  1. def calc(func):
  2.     def wrapper(*args, **kwargs):
  3.         import time
  4.         
  5.         start = time.perf_counter()
  6.         
  7.         ret = func(*args, **kwargs)

  8.         during = f"{(time.perf_counter() - start) * 1000 : .3f}"

  9.         print(f"运行时长 : {during} 毫秒")

  10.         return ret
  11.    
  12.     return wrapper

  13. @calc
  14. def func(str1):
  15.     list1 = []
  16.     temp = ""

  17.     for i in str1[:]+" ":
  18.         if not i.isspace():
  19.             temp += i
  20.             
  21.         elif temp:
  22.             list1.append(temp)
  23.             temp = ""

  24.     return list1

  25. if __name__ == "__main__":
  26.     str1 = "abc     de.f g hijk6"
  27.     str2 = "lmn"

  28.     print(func(str1))
  29.     print(func(str2))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-14 12:45:42 | 显示全部楼层

要用正则表达式
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-14 12:46:43 | 显示全部楼层
瞎写了一个,不过完全不对

  1. from re import findall
  2. pat = r"(?: ([^ ]+?) )|(?:^(.*?))|(?:(.*?)$)"
  3. string1 = 'abc     de.f g hijk6'
  4. string2 = 'lmn'
  5. print(findall(pat, string1))
  6. print(findall(pat, string2))
复制代码

评分

参与人数 1荣誉 +1 鱼币 +1 收起 理由
hrp + 1 + 1

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-14 12:55:42 | 显示全部楼层
zltzlt 发表于 2020-3-14 12:46
瞎写了一个,不过完全不对

这个用正则表达式好像写不出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-14 13:56:04 | 显示全部楼层
本帖最后由 hrp 于 2020-3-14 14:19 编辑
zltzlt 发表于 2020-3-14 12:46
瞎写了一个,不过完全不对


我去百度了各种先行后发零宽断言,写了一个,勉强符合要求,但是还有问题
不知道为何:
  1. from re import findall

  2. # pat = r"(?<=^|\b)\S+?(?=\s|$)"  # 不支持变长(|左右字符长度不相等)后发零宽断言,只能用\b替代\s以保证长度相等,但符号开头的字符串比如以下的%ascn匹配不到%。
  3. pat = r"(?<![0-9a-zA-Z~`!@#$%^&*()_+-/=.\|*])\S+?(?=\s|$)"  # 暴力解决 :)

  4. string1 = 'abc     de.f g hijk6'
  5. string2 = 'lmn'
  6. string3 = 'aca% 21474836 476.-61 %ascn'

  7. print(findall(pat, string1))
  8. print(findall(pat, string2))
  9. print(findall(pat, string3))

  10. # ['abc', 'de.f', 'g', 'hijk6']
  11. # ['lmn']
  12. # ['aca%', '21474836', '476.-61', '%ascn']
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-14 15:18:23 | 显示全部楼层
  1. >>> import re
  2. >>> a = 'aca% 21474836 476.-61 %ascn'
  3. >>> re.findall(r'(?<=\s).*?(?=\s|$)|(?<=^).*?(?=\s|$)', re.sub(r' +', ' ', a))
  4. ['aca%', '21474836', '476.-61', '%ascn']
复制代码


好坑啊,後發斷言不支持變長

评分

参与人数 1荣誉 +2 鱼币 +2 收起 理由
hrp + 2 + 2

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-14 15:31:50 From FishC Mobile | 显示全部楼层
wcshds 发表于 2020-3-14 15:18
好坑啊,後發斷言不支持變長

好办法
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-14 16:05:11 | 显示全部楼层
这样试试“

from re import findall
pat = r"\s?([\w\.\"\%\$\+\-\*\/\(\)]+)\s?"
string1 = 'abc     de.f g hijk6'
string2 = 'lmn'
a = 'aca% 21474836 476.-61 %ascn'
print(findall(pat, string1))
print(findall(pat, string2))
print(findall(pat, a))
#['abc', 'de.f', 'g', 'hijk6']
#['lmn']
#['aca%', '21474836', '476.-61', '%ascn']

评分

参与人数 1荣誉 +2 鱼币 +2 收起 理由
hrp + 2 + 2 感谢楼主无私奉献!

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-14 16:07:01 | 显示全部楼层
pat = r"([\w\.\"\%\$\+\-\*\/\(\)]+)(?=\s|$)"
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-14 16:44:28 From FishC Mobile | 显示全部楼层
kaohsing 发表于 2020-3-14 16:05
这样试试“

from re import findall

大神
方括号里的反斜杠是用来转义的吗,不是说方括号里的字符都没有特殊意义吗(我昨天刚学正则不怎么明白)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-14 16:58:41 | 显示全部楼层
我是为了保险都转义了,你可以去掉试试。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-14 09:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表