用beautifulsoup解析包含命名空间的xml
用beautifulsoup遍历搜索xml,打印后发现得到的子节点的命名空间丢失了。是不是如果有命名空间时,不适合用这个库来搜索文档树?那么有什么好用的解析的xml的库呢?大大们推荐一下呗{:10_254:} xpath求最佳 https://www.cnblogs.com/feng0815/p/8280581.html
这个是方法 XPath,十分好用,最重要的是你还可以直接从开发者工具里面复制出来XPath直接用于匹配。 你想要提取什么数据,这才是王道, 本帖最后由 Twilight6 于 2020-5-28 06:44 编辑
审核通过重复 本帖最后由 Twilight6 于 2020-5-27 16:15 编辑
建议 lxml 解析器吧,速度快 文本容错率高
或者学习学习其他的数据提取?
正则表达式
Beautiful Soup
XPath
JsonPath
PyQuery
Scrapy、Selenium 也可以提取数据
用正则 本帖最后由 Twilight6 于 2020-5-28 06:43 编辑
审核通过重复 https://fishc.com.cn/forum.php?mod=viewthread&tid=147554&ctid=1467
XPath,十分好用 wp231957 发表于 2020-5-27 15:39
你想要提取什么数据,这才是王道,
这个xml的内容是一个测试序列,里面有很多迭代的block节点,所以用到了子节点,想要循环遍历每一层的子节点,从外到内逐层得到每个block中的某个特定的attribute的value。
这个attritute名包含命名空间,发现一遍循环后,在打印节点,节点中没有这个属性了,其他不含命名空间的则还在。
类似这个网页中描述的问题。http://www.voidcn.com/article/p-sesuiszg-bus.html
页:
[1]