用beautifulsoup解析包含命名空间的xml

FC的注册很坑 · 发表于 2020-5-27 15:33:34

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

用beautifulsoup遍历搜索xml，打印后发现得到的子节点的命名空间丢失了。是不是如果有命名空间时，不适合用这个库来搜索文档树？那么有什么好用的解析的xml的库呢?大大们推荐一下呗

Mike_python小 · 发表于 2020-5-27 15:34:14

xpath

求最佳

Mike_python小 · 发表于 2020-5-27 15:34:51

https://www.cnblogs.com/feng0815/p/8280581.html

这个是方法

qiuyouzhi · 发表于 2020-5-27 15:34:56

XPath，十分好用，最重要的是你还可以直接从开发者工具里面复制出来XPath直接用于匹配。

wp231957 · 发表于 2020-5-27 15:39:37

你想要提取什么数据，这才是王道，

Twilight6 · 发表于 2020-5-27 15:43:28

本帖最后由 Twilight6 于 2020-5-28 06:44 编辑

审核通过重复

Twilight6 · 发表于 2020-5-27 16:10:20

本帖最后由 Twilight6 于 2020-5-27 16:15 编辑

建议 lxml 解析器吧，速度快文本容错率高

或者学习学习其他的数据提取？

正则表达式

 Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

xiaosi4081 · 发表于 2020-5-27 16:25:47

用正则

Twilight6 · 发表于 2020-5-27 20:33:32

本帖最后由 Twilight6 于 2020-5-28 06:43 编辑

审核通过重复

Stubborn · 发表于 2020-5-27 20:43:23

https://fishc.com.cn/forum.php?m ... 47554&ctid=1467

XPath，十分好用

FC的注册很坑 · 发表于 2020-5-28 13:06:31

wp231957 发表于 2020-5-27 15:39
你想要提取什么数据，这才是王道，

这个xml的内容是一个测试序列，里面有很多迭代的block节点，所以用到了子节点，想要循环遍历每一层的子节点，从外到内逐层得到每个block中的某个特定的attribute的value。
这个attritute名包含命名空间，发现一遍循环后，在打印节点，节点中没有这个属性了，其他不含命名空间的则还在。
类似这个网页中描述的问题。http://www.voidcn.com/article/p-sesuiszg-bus.html

账号		自动登录	找回密码
密码			立即注册