鱼C论坛

 找回密码
 立即注册
查看: 1229|回复: 2

[已解决]如何匹配中文与特殊符号

[复制链接]
发表于 2020-10-29 16:00:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
如题:
info = ['央未浮光</a>:日常打卡 ', '这里的黎明静悄悄201812</a>:厉害厉害,太美了 ', 'L莫道不消魂</a>:午安 ', '娓娓V知恩</a>:中国文化,博大精深,太艺术了<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_good_org.png" title="[good]" alt=    "[good]" type="face" /> ', '北林三生</a>:柒柒<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '大吕二七</a>:加油呀 ', 'L莫道不消魂</a>:早安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/f6/2018new_aini_org.png" title="[爱你]" alt=    "[爱你]" type="face" /> ', '1只傲娇狗</a><a action-type="ignore_list" title="微博会员" target="_blank" ><em class="W_icon icon_member6"></em></a>:早 ', '福星高照积少成多</a>:OK ', '__松林少女</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開
心]" alt=    "[太開心]" type="face" /> ', '张先生的張小乖</a>:传承不可断 ', 'L莫道不消魂</a>:晚安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d5/2018new_yueliang_org.png" title="[月亮]" alt=    "[月亮]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '铁血miumiu186</a>:厉害👍 ', 'Rachelnxq</a>:转发微博 ', '朔月_风华</a>:<a target="_blank" render="ext" extra-data="type=atname" href="//weibo.com/n/%E6%97%A0%E4%BA%BA%E4%BA%88%E4%B8%B6?from=feed&loc=at" usercard="name=无
人予丶">@无人予丶</a> ', '梦游私台北Pxy</a>:国之骄傲! ', '我只想看大结局</a>:加油~ ', 'L莫道不消魂</a>:晚上好 ', '羊咩和太狼</a><a target="_blank"  suda-data="key=pc_apply_entry&value=feed_icon" href=""><i title= "" class="" node-type="daren"></i></a>:所以送给谁了?很大头的样子? ', '张_张_张不染</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /> ']


需要的结果如下:
央未浮光:日常打卡
这里的黎明静悄悄:厉害厉害:太美了
莫道不消魂:午安
娓娓V知恩:中国文化:博大精深:太艺术了
北林三生:柒柒:心:心:心:心
大吕二七:加油呀
L莫道不消魂:早安
1只傲娇狗:早
福星高照积少成多:OK
__松林少女:
张先生的張小乖:传承不可断
L莫道不消魂:晚安
铁血:厉害
Rachelnxq:转发微博
朔月_风华:@无人予丶
梦游私台北Pxy:国之骄傲
我只想看大结局:加油~
L莫道不消魂:晚上好
羊咩和太狼:所以送给谁了?很大头的样子?
张_张_张不染:


不知道要怎么匹配,有大佬帮忙吗?谢谢
最佳答案
2020-10-29 16:30:14
你这结果也不全是中文字符啊。
你的要求应该是去掉所有的HTML标签吧?
import re
info = ['央未浮光</a>:日常打卡 ', '这里的黎明静悄悄201812</a>:厉害厉害,太美了 ', 'L莫道不消魂</a>:午安 ', '娓娓V知恩</a>:中国文化,博大精深,太艺术了<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_good_org.png" title="[good]" alt=    "[good]" type="face" /> ', '北林三生</a>:柒柒<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '大吕二七</a>:加油呀 ', 'L莫道不消魂</a>:早安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/f6/2018new_aini_org.png" title="[爱你]" alt=    "[爱你]" type="face" /> ', '1只傲娇狗</a><a action-type="ignore_list" title="微博会员" target="_blank" ><em class="W_icon icon_member6"></em></a>:早 ', '福星高照积少成多</a>:OK ', '__松林少女</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /> ', '张先生的張小乖</a>:传承不可断 ', 'L莫道不消魂</a>:晚安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d5/2018new_yueliang_org.png" title="[月亮]" alt=    "[月亮]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '铁血miumiu186</a>:厉害👍 ', 'Rachelnxq</a>:转发微博 ', '朔月_风华</a>:<a target="_blank" render="ext" extra-data="type=atname" href="//weibo.com/n/%E6%97%A0%E4%BA%BA%E4%BA%88%E4%B8%B6?from=feed&loc=at" usercard="name=无人予丶">@无人予丶</a> ', '梦游私台北Pxy</a>:国之骄傲! ', '我只想看大结局</a>:加油~ ', 'L莫道不消魂</a>:晚上好 ', '羊咩和太狼</a><a target="_blank"  suda-data="key=pc_apply_entry&value=feed_icon" href=""><i title= "" class="" node-type="daren"></i></a>:所以送给谁了?很大头的样子? ', '张_张_张不染</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /> ']
for each in info:
    print(re.sub(r'<.*>','',each))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-10-29 16:30:14 | 显示全部楼层    本楼为最佳答案   
你这结果也不全是中文字符啊。
你的要求应该是去掉所有的HTML标签吧?
import re
info = ['央未浮光</a>:日常打卡 ', '这里的黎明静悄悄201812</a>:厉害厉害,太美了 ', 'L莫道不消魂</a>:午安 ', '娓娓V知恩</a>:中国文化,博大精深,太艺术了<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_good_org.png" title="[good]" alt=    "[good]" type="face" /> ', '北林三生</a>:柒柒<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '大吕二七</a>:加油呀 ', 'L莫道不消魂</a>:早安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/f6/2018new_aini_org.png" title="[爱你]" alt=    "[爱你]" type="face" /> ', '1只傲娇狗</a><a action-type="ignore_list" title="微博会员" target="_blank" ><em class="W_icon icon_member6"></em></a>:早 ', '福星高照积少成多</a>:OK ', '__松林少女</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /> ', '张先生的張小乖</a>:传承不可断 ', 'L莫道不消魂</a>:晚安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d5/2018new_yueliang_org.png" title="[月亮]" alt=    "[月亮]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '铁血miumiu186</a>:厉害👍 ', 'Rachelnxq</a>:转发微博 ', '朔月_风华</a>:<a target="_blank" render="ext" extra-data="type=atname" href="//weibo.com/n/%E6%97%A0%E4%BA%BA%E4%BA%88%E4%B8%B6?from=feed&loc=at" usercard="name=无人予丶">@无人予丶</a> ', '梦游私台北Pxy</a>:国之骄傲! ', '我只想看大结局</a>:加油~ ', 'L莫道不消魂</a>:晚上好 ', '羊咩和太狼</a><a target="_blank"  suda-data="key=pc_apply_entry&value=feed_icon" href=""><i title= "" class="" node-type="daren"></i></a>:所以送给谁了?很大头的样子? ', '张_张_张不染</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /> ']
for each in info:
    print(re.sub(r'<.*>','',each))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-10-29 16:48:05 | 显示全部楼层
sunrise085 发表于 2020-10-29 16:30
你这结果也不全是中文字符啊。
你的要求应该是去掉所有的HTML标签吧?

谢谢大佬,re正则没怎么学过,只会 .*?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-18 04:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表