不二如是 发表于 2025-2-20 19:00:00

「OmniParser V2」微软开源「AI接管屏幕」效率翻倍!



微软的 OmniParser V2 是一款强大的工具,旨在将大型语言模型(LLM)转化为能够操控计算机的智能代理。

它通过将图形用户界面(GUI)的屏幕截图转化为结构化的机器可读数据,显著提升了 LLM 在理解和交互软件界面方面的能力。

在线学习:

https://www.bilibili.com/video/BV1MhAJeNENt

更高的检测精度:OmniParser V2 在检测更小的交互元素方面实现了更高的准确性。

它在 ScreenSpot Pro 基准测试中达到了 39.6% 的平均准确率,相比 GPT-4o 单独使用的 0.8% 有了质的飞跃。

更快的推理速度:通过优化图标描述模型的图像大小,OmniParser V2 的延迟相比上一代降低了 60%。

在 A100 GPU 上的平均处理时间为 0.6 秒,在 RTX 4090 GPU 上为 0.8 秒。

强大的输入与输出能力:**** Hidden Message *****

与多种 LLM 集成:OmniParser V2 可与 OpenAI 的 GPT-4o、DeepSeek R1、Qwen 2.5VL 和 Anthropic Sonnet 等多种先进 AI 模型无缝集成。

微软还推出了OmniTool,这是一个 Docker 化的 Windows 系统,集成了屏幕理解、定位、动作规划和执行等基本功能,支持快速实验和开发。

OmniParser V2 的发布是 AI 视觉解析领域的重要里程碑,它通过卓越的速度和精度,为开发者和企业提供了强大的工具,推动了 AI 技术在更多领域的应用。

小甲鱼的二师兄 发表于 2025-2-20 19:11:22

这个厉害,还是微软开源的?

不二如是 发表于 2025-2-20 19:51:08

小甲鱼的二师兄 发表于 2025-2-20 19:11
这个厉害,还是微软开源的?

是滴!

快速收敛 发表于 2025-2-21 08:58:00

{:5_106:}

sunshine_8205 发表于 2025-2-21 10:00:43

{:5_106:}

鱼C-小师妹 发表于 2025-2-22 10:30:47

学习!

492121974 发表于 2025-2-26 20:07:53

66666666

不二如是 发表于 2025-3-30 19:02:53

朕学到啦
页: [1]
查看完整版本: 「OmniParser V2」微软开源「AI接管屏幕」效率翻倍!