鱼C论坛

 找回密码
 立即注册
查看: 933|回复: 11

用beautifulsoup解析包含命名空间的xml

[复制链接]
发表于 2020-5-27 15:33:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
用beautifulsoup遍历搜索xml,打印后发现得到的子节点的命名空间丢失了。是不是如果有命名空间时,不适合用这个库来搜索文档树?那么有什么好用的解析的xml的库呢?大大们推荐一下呗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-27 15:34:14 | 显示全部楼层
xpath

求最佳
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 15:34:51 | 显示全部楼层
https://www.cnblogs.com/feng0815/p/8280581.html

这个是方法
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 15:34:56 | 显示全部楼层
XPath,十分好用,最重要的是你还可以直接从开发者工具里面复制出来XPath直接用于匹配。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 15:39:37 From FishC Mobile | 显示全部楼层
你想要提取什么数据,这才是王道,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 15:43:28 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-28 06:44 编辑

审核通过重复
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 16:10:20 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-27 16:15 编辑

建议 lxml 解析器吧,速度快 文本容错率高


或者学习学习其他的数据提取?

正则表达式

Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 16:25:47 | 显示全部楼层
用正则
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 20:33:32 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-28 06:43 编辑

审核通过重复
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-27 20:43:23 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-28 13:06:31 | 显示全部楼层
wp231957 发表于 2020-5-27 15:39
你想要提取什么数据,这才是王道,

这个xml的内容是一个测试序列,里面有很多迭代的block节点,所以用到了子节点,想要循环遍历每一层的子节点,从外到内逐层得到每个block中的某个特定的attribute的value。
这个attritute名包含命名空间,发现一遍循环后,在打印节点,节点中没有这个属性了,其他不含命名空间的则还在。
类似这个网页中描述的问题。http://www.voidcn.com/article/p-sesuiszg-bus.html
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-21 00:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表