AI教母「李飞飞」带着「S1」来炸「DeepSeek」场！成本仅50美元，性能媲美Deepsee...

不二如是 · 发表于 2025-2-6 22:14:12

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由不二如是于 2025-2-6 22:14 编辑

e74117fdb0829ae7b0bff1bdb7d0bd7cc5495d61.jpg@308w_174h.jpeg

李飞飞研究团队提出了一种简单高效的方法，通过在测试时增加计算量来提升语言模型的推理性能。

他们精心策划了一个包含1000个问题的小型数据集s1K，并开发了预算强制技术来控制测试时的计算量。

经过监督微调后，模型s1-32B在竞赛数学问题上超越了OpenAI的o1-preview模型，性能提升显著。

这项研究不仅实现了样本高效的推理，还为语言模型的测试时扩展提供了新的思路。

在线学习：

首先，我们整理了一个小型数据集 s1K，共包含 1,000 个问题和对应的推理过程。

这些问题是基于三个标准挑选出来的：难度、多样性和质量，这三个标准也经过了消融实验的验证。

接着，我们开发了一种叫做“预算强制”（budget forcing）的方法，用来控制测试时的计算资源。

具体来说，当模型试图结束思考时，我们会通过反复添加“Wait”来延长它的思考过程，或者直接强制中止其思考。

这样做可以让模型重新检查自己的答案，从而经常修正错误的推理步骤。

在使用 s1K 数据集对 Qwen2.5-32B-Instruct 语言模型进行监督微调，并加入预算强制策略后。

我们得到的 s1-32B 模型在竞赛数学题（如 MATH 和 AIME24）上的表现，比 o1-preview 模型最高提高了 27%。

而且，通过结合预算强制方法，即使在不进行额外测试时干预的情况下，我们的 s1-32B 模型在 AIME24 上的表现也能从 50% 提升到 57%。

论文：

2501.19393v2.pdf.zip (1.11 MB, 下载次数: 3, 售价: 3 鱼币)

李飞飞1976年出生于北京，成长于四川成都，16岁随父母移居美国新泽西州。

1999年，她以优异成绩从普林斯顿大学毕业，获得物理学学士学位。

2000年，她进入加州理工学院攻读研究生，2005年获得电子工程博士学位。

2017—2018年，李飞飞在谷歌担任副总裁及Google Cloud AI/ML首席科学家。

李飞飞的主要研究领域包括人工智能、机器学习、深度学习、计算机视觉、机器人学习以及AI在医疗保健中的应用。

她发明了ImageNet和ImageNet挑战赛，这一大规模数据集和基准测试工作被认为是深度学习和AI发展的重要推动力之一。

不二如是 · 发表于 2025-2-6 22:37:49

感谢分享！！有论文太好了！！

不二如是 · 发表于 2025-2-6 22:38:01

@FishC 介绍DeepSeek实现原理

不二如是 · 发表于 2025-2-7 07:36:36

小甲鱼的二师兄发表于 2025-2-7 01:04
强，这个都搞到了！

过两天升级为VIP臻享

不二如是 · 发表于 2025-3-15 21:20:29

感谢分享！！有论文太好了！！

账号		自动登录	找回密码
密码			立即注册

[大语言模型] AI教母「李飞飞」带着「S1」来炸「DeepSeek」场！成本仅50美元，性能媲美Deepsee...

马上注册，结交更多好友，享用更多功能^_^

评分

相关帖子

浏览过的版块