FC的注册很坑 发表于 2020-5-27 15:33:34

用beautifulsoup解析包含命名空间的xml

用beautifulsoup遍历搜索xml,打印后发现得到的子节点的命名空间丢失了。是不是如果有命名空间时,不适合用这个库来搜索文档树?那么有什么好用的解析的xml的库呢?大大们推荐一下呗{:10_254:}

Mike_python小 发表于 2020-5-27 15:34:14

xpath

求最佳

Mike_python小 发表于 2020-5-27 15:34:51

https://www.cnblogs.com/feng0815/p/8280581.html

这个是方法

qiuyouzhi 发表于 2020-5-27 15:34:56

XPath,十分好用,最重要的是你还可以直接从开发者工具里面复制出来XPath直接用于匹配。

wp231957 发表于 2020-5-27 15:39:37

你想要提取什么数据,这才是王道,

Twilight6 发表于 2020-5-27 15:43:28

本帖最后由 Twilight6 于 2020-5-28 06:44 编辑

审核通过重复

Twilight6 发表于 2020-5-27 16:10:20

本帖最后由 Twilight6 于 2020-5-27 16:15 编辑

建议 lxml 解析器吧,速度快 文本容错率高


或者学习学习其他的数据提取?

正则表达式

Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

xiaosi4081 发表于 2020-5-27 16:25:47

用正则

Twilight6 发表于 2020-5-27 20:33:32

本帖最后由 Twilight6 于 2020-5-28 06:43 编辑

审核通过重复

Stubborn 发表于 2020-5-27 20:43:23

https://fishc.com.cn/forum.php?mod=viewthread&tid=147554&ctid=1467   


XPath,十分好用

FC的注册很坑 发表于 2020-5-28 13:06:31

wp231957 发表于 2020-5-27 15:39
你想要提取什么数据,这才是王道,

这个xml的内容是一个测试序列,里面有很多迭代的block节点,所以用到了子节点,想要循环遍历每一层的子节点,从外到内逐层得到每个block中的某个特定的attribute的value。
这个attritute名包含命名空间,发现一遍循环后,在打印节点,节点中没有这个属性了,其他不含命名空间的则还在。
类似这个网页中描述的问题。http://www.voidcn.com/article/p-sesuiszg-bus.html
页: [1]
查看完整版本: 用beautifulsoup解析包含命名空间的xml