中英文泡椒 发表于 2024-12-3 17:50:51

开源PDF解析神器——Miner U

本帖最后由 中英文泡椒 于 2024-12-3 19:00 编辑

在数字化盛行时代,我们每日都不可避免地与形形色色的文档相伴相随。

不论是处理繁琐的日常办公事务,还是投身于严谨的学术研究,

处理和提取文档中的信息已成为任务中不可或缺的一环。

今天给大家介绍一款强大的开源工具——Miner U,能够帮助我们更好的完成日常任务。

开源地址:

**** Hidden Message *****



目前已获得20k Star.

Miner U是由opendatalab开发的一站式开源数据提取工具,它包括两个主要组件Q:Magic-PDF和Magic-Doc。

Magic-PDF专注于PDF文档的提取,而Magic-Doc则能够处理网页和电子书。

主要功能:


[*]去除非内容元素:自动去除PDF中的页眉、页脚、脚注和页码。


[*]保持文档结构:保留原始文档的标题、段落、列表等结构和格式。


[*]提取图像和表格:将文档中的图像和表格转换为Markdown格式。


[*]公式转换:将PDF中的数学公式转换为LaTex格式


[*]跨平台支持:兼容Windows口、Linux和macOS操作系统


将PDF内容转化为可编辑的Markdown格式


文字图片表格,复杂数学公式也能轻松提取


乱码或扫描版PDF自动识别



如果你对这个项目感兴趣,或者认为它对你有足够的帮助,那你可以尝试使用一下

**** Hidden Message *****









慢慢即漫漫 发表于 2024-12-3 18:59:52

学习学习

轻功小水漂 发表于 2024-12-3 19:24:23

谢谢分享

omg123460 发表于 2024-12-3 21:04:43

111

clollipops 发表于 2024-12-3 21:30:52

好东西谢谢分享

xiehongzhe 发表于 2024-12-3 21:31:07

学习学习!

每天提高一点点 发表于 2024-12-3 21:31:48


学习学习!

大魔王666 发表于 2024-12-3 21:32:34

学习了

spt1314 发表于 2024-12-3 21:32:57

这种工具必须下一个用用看

rickzhao 发表于 2024-12-3 21:33:59

很感兴趣。

想个好名字@ 发表于 2024-12-3 21:34:29

很实用的工具 收藏了

Ming-02 发表于 2024-12-3 21:34:50

学习学习

kounasx 发表于 2024-12-3 21:40:48

学习学习

朱鸣轩 发表于 2024-12-3 21:40:56

学习一下,感觉老高级了

kyo890814 发表于 2024-12-3 21:41:16

学习一下

Eric_1891574 发表于 2024-12-3 21:41:58

开源的吗?有没有测试过?

windsf 发表于 2024-12-3 21:42:05

好东西谢谢分享

生生不息的鲸落 发表于 2024-12-3 21:43:08

star上了

ABitGinger 发表于 2024-12-3 21:46:33

看上去很强大啊{:10_275:}

zhae89 发表于 2024-12-3 21:50:50

来学习来啦
页: [1] 2 3
查看完整版本: 开源PDF解析神器——Miner U