jtxs0000 发表于 2020-10-29 16:00:31

如何匹配中文与特殊符号

如题:

info = ['央未浮光</a>:日常打卡 ', '这里的黎明静悄悄201812</a>:厉害厉害,太美了 ', 'L莫道不消魂</a>:午安 ', '娓娓V知恩</a>:中国文化,博大精深,太艺术了<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_good_org.png" title="" alt=    "" type="face" /> ', '北林三生</a>:柒柒<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '大吕二七</a>:加油呀 ', 'L莫道不消魂</a>:早安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/f6/2018new_aini_org.png" title="[爱你]" alt=    "[爱你]" type="face" /> ', '1只傲娇狗</a><a action-type="ignore_list" title="微博会员" target="_blank" ><em class="W_icon icon_member6"></em></a>:早 ', '福星高照积少成多</a>:OK ', '__松林少女</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開
心]" alt=    "[太開心]" type="face" /> ', '张先生的張小乖</a>:传承不可断 ', 'L莫道不消魂</a>:晚安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d5/2018new_yueliang_org.png" title="[月亮]" alt=    "[月亮]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '铁血miumiu186</a>:厉害&#128077; ', 'Rachelnxq</a>:转发微博 ', '朔月_风华</a>:<a target="_blank" render="ext" extra-data="type=atname" href="//weibo.com/n/%E6%97%A0%E4%BA%BA%E4%BA%88%E4%B8%B6?from=feed&loc=at" usercard="name=无
人予丶">@无人予丶</a> ', '梦游私台北Pxy</a>:国之骄傲! ', '我只想看大结局</a>:加油~ ', 'L莫道不消魂</a>:晚上好 ', '羊咩和太狼</a><a target="_blank"suda-data="key=pc_apply_entry&value=feed_icon" href=""><i title= "" class="" node-type="daren"></i></a>:所以送给谁了?很大头的样子? ', '张_张_张不染</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /> ']


需要的结果如下:
央未浮光:日常打卡
这里的黎明静悄悄:厉害厉害:太美了
莫道不消魂:午安
娓娓V知恩:中国文化:博大精深:太艺术了
北林三生:柒柒:心:心:心:心
大吕二七:加油呀
L莫道不消魂:早安
1只傲娇狗:早
福星高照积少成多:OK
__松林少女:
张先生的張小乖:传承不可断
L莫道不消魂:晚安
铁血:厉害
Rachelnxq:转发微博
朔月_风华:@无人予丶
梦游私台北Pxy:国之骄傲
我只想看大结局:加油~
L莫道不消魂:晚上好
羊咩和太狼:所以送给谁了?很大头的样子?
张_张_张不染:


不知道要怎么匹配,有大佬帮忙吗?谢谢{:10_266:}

sunrise085 发表于 2020-10-29 16:30:14

你这结果也不全是中文字符啊。
你的要求应该是去掉所有的HTML标签吧?
import re
info = ['央未浮光</a>:日常打卡 ', '这里的黎明静悄悄201812</a>:厉害厉害,太美了 ', 'L莫道不消魂</a>:午安 ', '娓娓V知恩</a>:中国文化,博大精深,太艺术了<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_good_org.png" title="" alt=    "" type="face" /> ', '北林三生</a>:柒柒<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '大吕二七</a>:加油呀 ', 'L莫道不消魂</a>:早安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/f6/2018new_aini_org.png" title="[爱你]" alt=    "[爱你]" type="face" /> ', '1只傲娇狗</a><a action-type="ignore_list" title="微博会员" target="_blank" ><em class="W_icon icon_member6"></em></a>:早 ', '福星高照积少成多</a>:OK ', '__松林少女</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/1e/2018new_taikaixin_org.png" title="[太開心]" alt=    "[太開心]" type="face" /> ', '张先生的張小乖</a>:传承不可断 ', 'L莫道不消魂</a>:晚安<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d5/2018new_yueliang_org.png" title="[月亮]" alt=    "[月亮]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/8a/2018new_xin_org.png" title="[心]" alt=    "[心]" type="face" /> ', '铁血miumiu186</a>:厉害&#128077; ', 'Rachelnxq</a>:转发微博 ', '朔月_风华</a>:<a target="_blank" render="ext" extra-data="type=atname" href="//weibo.com/n/%E6%97%A0%E4%BA%BA%E4%BA%88%E4%B8%B6?from=feed&loc=at" usercard="name=无人予丶">@无人予丶</a> ', '梦游私台北Pxy</a>:国之骄傲! ', '我只想看大结局</a>:加油~ ', 'L莫道不消魂</a>:晚上好 ', '羊咩和太狼</a><a target="_blank"suda-data="key=pc_apply_entry&value=feed_icon" href=""><i title= "" class="" node-type="daren"></i></a>:所以送给谁了?很大头的样子? ', '张_张_张不染</a>:<img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /><img class="W_img_face" render="ext" src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/d4/2018new_xianhua_org.png" title="[鲜花]" alt=    "[鲜花]" type="face" /> ']
for each in info:
    print(re.sub(r'<.*>','',each))

jtxs0000 发表于 2020-10-29 16:48:05

sunrise085 发表于 2020-10-29 16:30
你这结果也不全是中文字符啊。
你的要求应该是去掉所有的HTML标签吧?

谢谢大佬,re正则没怎么学过,只会 .*? {:10_266:}
页: [1]
查看完整版本: 如何匹配中文与特殊符号