鱼C论坛

 找回密码
 立即注册
查看: 3522|回复: 6

[已解决]正则截取双引号内的内容

[复制链接]
发表于 2019-3-28 11:51:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
一句话只有一个引号的时候,小李说“今天的天气真好”

#coding=utf-8
import re
string1=‘小李说“今天的天气真好” ’

pattern = re.compile(‘”(.*)“’)
str_re1=pattern.findall(string1)
print (str_re1[0]) #提取双引号内的数据

结果得: 今天的天气真好

但是,如果我要提取的内容是两句话,我就会碰到这种情况:
小李说“今天的天气真好” ,小明说”对,你说的没错“

#coding=utf-8
import re
string1=‘小李说“今天的天气真好” ,小明说”对,你说的没错“ ’
pattern = re.compile(‘”(.*)“’)
str_re1=pattern.findall(string1)
print (str_re1[0]) #提取双引号内的数据

结果为: 今天的天气真好” ,小明说”对,你说的没错  

就会造成了,只截取了最外围的双引号的值,这个问题要怎么解决呢? 就是只输出 : 今天的天气真好   对,你说的没错  
最佳答案
2019-3-28 12:30:53
本帖最后由 凌九霄 于 2019-3-28 12:32 编辑

因为你提供的前后两句话的双引号并不是标准的 “” 对应,所以,如果不能改正的话,那么就只能死板的复制了引号去匹配,比如:
360截图20190328121610770.jpg

“([^”]+)”[^”]+”([^“]+)  取第一第二分组
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-3-28 12:16:44 | 显示全部楼层
360截图20190328121610770.jpg
标点要规范才行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-28 12:20:47 | 显示全部楼层

啥意思呀? 这句话的文字内容是不可以改变的哦,因为这是一个测试case ,不是自己写的字符串,是要测试的对象
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-28 12:28:07 | 显示全部楼层

我明白了,是要用“[^"]+" 替换(‘“(.*)"') 是吗? 但是我也只能得到一句话的内容而已 。。
如果我后面还有很多个引号的内容需要提取呢? 麻烦您
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-28 12:30:53 | 显示全部楼层    本楼为最佳答案   
本帖最后由 凌九霄 于 2019-3-28 12:32 编辑

因为你提供的前后两句话的双引号并不是标准的 “” 对应,所以,如果不能改正的话,那么就只能死板的复制了引号去匹配,比如:
360截图20190328121610770.jpg

“([^”]+)”[^”]+”([^“]+)  取第一第二分组
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-28 12:42:10 | 显示全部楼层
凌九霄 发表于 2019-3-28 12:30
因为你提供的前后两句话的双引号并不是标准的 “” 对应,所以,如果不能改正的话,那么就只能死板的复制了 ...

import re
str_speaker_content_1 = 'Yesterday, I visited Sirs Andrew and Nancy I asked Sir Andrew who he was, and he answered impatiently: "Sir Nancy and I are Knaves" Then I met Sir Bill who introduced me to his wife and told me: "at least one of Sir Hilary and I is a Knave" Should I trust them'

pattern = re.compile('"([^"]+)"')
str_speaker_content_1 = str_speaker_content_1.replace(',','')
str_speaker_content_2 = pattern.findall(str_speaker_content_1) #findall在字符串中找到正则表达式所匹配的所有子串,并组成一个列表返回
print(str_speaker_content_2[0])  #提取双引号 “” 内的数据

那像这个,如果我加太多的话, 这个列表的值就会说超出范围了 - -
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-28 13:02:12 | 显示全部楼层
凌九霄 发表于 2019-3-28 12:30
因为你提供的前后两句话的双引号并不是标准的 “” 对应,所以,如果不能改正的话,那么就只能死板的复制了 ...

解决了,谢谢你
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-17 17:43

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表