正则表达式提取内容。。
<div accuse="aContent" class="best-text mb-10" id="best-content-2893309099"><div class="wgt-best-mask">
<div class="wgt-best-showbtn">
推荐内容<span class="wgt-best-arrowdown"></span>
</div>
</div>
<p>沙漠中的精灵</p><div class="excellent-qb-divider"></div><p>骆驼是骆驼科骆驼属的动物,头较小,颈粗长,弯曲如鹅颈。躯体高大,体毛褐色,极能忍饥耐渴。骆驼可以在没有水的条件下生存2周,没有食物的条件下可生存一个月之久。驼峰里贮存着脂肪,可在得不到食物时,分解成身体所需养分,供骆驼生存需要,足有厚皮,用来适应沙漠行走。生活在沙漠边缘的人类早在公元前3000年已经开始驯养骆驼,作为役畜,以供驮运和骑乘,有许多国家有倚赖骆驼为生的骆驼牧 民,是沙漠里的唯一交通工具,甚至有骆驼骑兵。</p><div class="excellent-qb-divider"></div>
</div>
我想剔除不要的标签,如div,span,table,ul,li等,保留p,img,hr,video,文本内容
这个正则表达式应该怎么写呢。。 好难哦。。有什么诀窍吗,往大佬指教。。{:5_109:} 直接用JQuery的标签选择器就好了啊,可以不用正则表达式。 Rayan_Bai 发表于 2021-7-1 15:45
直接用JQuery的标签选择器就好了啊,可以不用正则表达式。
没用过,安装个试试,, 谢谢指导{:5_110:} Rayan_Bai 发表于 2021-7-1 15:45
直接用JQuery的标签选择器就好了啊,可以不用正则表达式。
怪我没说清楚,有的DIV里面有文本内容,也是要保留内容的。没有内容的去掉。。 能写个案例吗?{:5_109:} 我不是第一个 发表于 2021-7-1 15:59
怪我没说清楚,有的DIV里面有文本内容,也是要保留内容的。没有内容的去掉。。 能写个案例吗?{:5_109 ...
还真没解析过字符串呢
试一试:
s='''<div accuse="aContent" class="best-text mb-10" id="best-content-2893309099">
<div class="wgt-best-mask">
<div class="wgt-best-showbtn">
推荐内容<span class="wgt-best-arrowdown"></span>
</div>
</div>
<p>沙漠中的精灵</p><div class="excellent-qb-divider"></div><p>骆驼是骆驼科骆驼属的动物,头较小,颈粗长,弯曲如鹅颈。躯体高大,体毛褐色,极能忍饥耐渴。骆驼可以在没有水的条件下生存2周,没有食物的条件下可生存一个月之久。驼峰里贮存着脂肪,可在得不到食物时,分解成身体所需养分,供骆驼生存需要,足有厚皮,用来适应沙漠行走。生活在沙漠边缘的人类早在公元前3000年已经开始驯养骆驼,作为役畜,以供驮运和骑乘,有许多国家有倚赖骆驼为生的骆驼牧 民,是沙漠里的唯一交通工具,甚至有骆驼骑兵。</p><div class="excellent-qb-divider"></div>
</div>
'''
from lxml import etree,html
tree=html.etree.HTML(s)
data=tree.xpath("//p/text()")
print(data)
'''
PS D:\我> py test4.py
['沙漠中的精灵', '骆驼是骆驼科骆驼属的动物,头较小,颈粗长,弯曲如鹅颈。躯体高大,体毛褐色,极能忍饥耐渴。骆驼可以在没有水的条件下生存2周,没有食物的条件下
可生存一个月之久。驼峰里贮存着脂肪,可在得不到食物时,分解成身体所需养分,供骆驼生存需要,足有厚皮,用来适应沙漠行走。生活在沙漠边缘的人类早在公元前3000年
已经开始驯养骆驼,作为役畜,以供驮运和骑乘,有许多国家有倚赖骆驼为生的骆驼牧 民,是沙漠里的唯一交通工具,甚至有骆驼骑兵。']
PS D:\我>
''' wp231957 发表于 2021-7-1 16:02
还真没解析过字符串呢
试一试:
谢谢你的解答,这个文本内容,不一定就在P标签里面哦。。也可能在div里面,table、span里面都有可能。
最好是能吧内容,提取出来,然后用P标签提取出来。保留img,hr,video。最好是这样。。{:5_109:} 我不是第一个 发表于 2021-7-1 16:13
谢谢你的解答,这个文本内容,不一定就在P标签里面哦。。也可能在div里面,table、span里面都有可能。
...
我只是针对你这个例子而已,实际上,静态解析
实在是过于easy,所以了,你想咋玩都可以 其实用bs4比较简单
页:
[1]