用beautifulsoup解析包含命名空间的xml,Python交流,编程语言专区,鱼C论坛

FC的注册很坑 发表于 2020-5-27 15:33:34

用beautifulsoup解析包含命名空间的xml

用beautifulsoup遍历搜索xml，打印后发现得到的子节点的命名空间丢失了。是不是如果有命名空间时，不适合用这个库来搜索文档树？那么有什么好用的解析的xml的库呢?大大们推荐一下呗{:10_254:}

Mike_python小 发表于 2020-5-27 15:34:14

xpath

求最佳

Mike_python小 发表于 2020-5-27 15:34:51

https://www.cnblogs.com/feng0815/p/8280581.html

这个是方法

qiuyouzhi 发表于 2020-5-27 15:34:56

XPath，十分好用，最重要的是你还可以直接从开发者工具里面复制出来XPath直接用于匹配。

wp231957 发表于 2020-5-27 15:39:37

你想要提取什么数据，这才是王道，

Twilight6 发表于 2020-5-27 15:43:28

本帖最后由 Twilight6 于 2020-5-28 06:44 编辑

审核通过重复

Twilight6 发表于 2020-5-27 16:10:20

本帖最后由 Twilight6 于 2020-5-27 16:15 编辑

建议 lxml 解析器吧，速度快文本容错率高

或者学习学习其他的数据提取？

正则表达式

Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

xiaosi4081 发表于 2020-5-27 16:25:47

用正则

Twilight6 发表于 2020-5-27 20:33:32

本帖最后由 Twilight6 于 2020-5-28 06:43 编辑

审核通过重复

Stubborn 发表于 2020-5-27 20:43:23

https://fishc.com.cn/forum.php?mod=viewthread&tid=147554&ctid=1467

XPath，十分好用

FC的注册很坑 发表于 2020-5-28 13:06:31

wp231957 发表于 2020-5-27 15:39
你想要提取什么数据，这才是王道，

这个xml的内容是一个测试序列，里面有很多迭代的block节点，所以用到了子节点，想要循环遍历每一层的子节点，从外到内逐层得到每个block中的某个特定的attribute的value。
这个attritute名包含命名空间，发现一遍循环后，在打印节点，节点中没有这个属性了，其他不含命名空间的则还在。
类似这个网页中描述的问题。http://www.voidcn.com/article/p-sesuiszg-bus.html

页: [1]

鱼C论坛's Archiver

用beautifulsoup解析包含命名空间的xml