鱼C论坛

 找回密码
 立即注册
查看: 6098|回复: 59

开源PDF解析神器——Miner U

[复制链接]
发表于 2024-12-3 17:50:51 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 中英文泡椒 于 2024-12-3 19:00 编辑

在数字化盛行时代,我们每日都不可避免地与形形色色的文档相伴相随。

不论是处理繁琐的日常办公事务,还是投身于严谨的学术研究,

处理和提取文档中的信息已成为任务中不可或缺的一环。

今天给大家介绍一款强大的开源工具——Miner U,能够帮助我们更好的完成日常任务。

开源地址:

游客,如果您要查看本帖隐藏内容请回复
[/hide]

20k.png

目前已获得20k Star.

Miner U是由opendatalab开发的一站式开源数据提取工具,它包括两个主要组件Q:Magic-PDF和Magic-Doc。

Magic-PDF专注于PDF文档的提取,而Magic-Doc则能够处理网页和电子书。

主要功能:

  • 去除非内容元素:自动去除PDF中的页眉、页脚、脚注和页码。

  • 保持文档结构:保留原始文档的标题、段落、列表等结构和格式。

  • 提取图像和表格:将文档中的图像和表格转换为Markdown格式。

  • 公式转换:将PDF中的数学公式转换为LaTex格式

  • 跨平台支持:兼容Windows口、Linux和macOS操作系统


将PDF内容转化为可编辑的Markdown格式
PDF转markdown.gif

文字图片表格,复杂数学公式也能轻松提取
数学公式.gif

乱码或扫描版PDF自动识别
扫描版.gif



如果你对这个项目感兴趣,或者认为它对你有足够的帮助,那你可以尝试使用一下

游客,如果您要查看本帖隐藏内容请回复
[/hide]









小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-25 03:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表