鱼C论坛

 找回密码
 立即注册
查看: 284|回复: 6

[大语言模型] AI教母「李飞飞」带着「S1」来炸「DeepSeek」场!成本仅50美元,性能媲美Deepsee...

[复制链接]
发表于 2025-2-6 22:14:12 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 不二如是 于 2025-2-6 22:14 编辑

e74117fdb0829ae7b0bff1bdb7d0bd7cc5495d61.jpg@308w_174h.jpeg

李飞飞研究团队提出了一种简单高效的方法,通过在测试时增加计算量来提升语言模型的推理性能。

他们精心策划了一个包含1000个问题的小型数据集s1K,并开发了预算强制技术来控制测试时的计算量。

经过监督微调后,模型s1-32B在竞赛数学问题上超越了OpenAI的o1-preview模型,性能提升显著。

这项研究不仅实现了样本高效的推理,还为语言模型的测试时扩展提供了新的思路。

在线学习:



首先,我们整理了一个小型数据集 s1K,共包含 1,000 个问题和对应的推理过程。

这些问题是基于三个标准挑选出来的:难度、多样性和质量,这三个标准也经过了消融实验的验证。

接着,我们开发了一种叫做“预算强制”(budget forcing)的方法,用来控制测试时的计算资源。

具体来说,当模型试图结束思考时,我们会通过反复添加“Wait”来延长它的思考过程,或者直接强制中止其思考。

这样做可以让模型重新检查自己的答案,从而经常修正错误的推理步骤。

在使用 s1K 数据集对 Qwen2.5-32B-Instruct 语言模型进行监督微调,并加入预算强制策略后。

我们得到的 s1-32B 模型在竞赛数学题(如 MATH 和 AIME24)上的表现,比 o1-preview 模型最高提高了 27%。

而且,通过结合预算强制方法,即使在不进行额外测试时干预的情况下,我们的 s1-32B 模型在 AIME24 上的表现也能从 50% 提升到 57%。

论文: 2501.19393v2.pdf.zip (1.11 MB, 下载次数: 3, 售价: 3 鱼币)

李飞飞1976年出生于北京,成长于四川成都,16岁随父母移居美国新泽西州。

1999年,她以优异成绩从普林斯顿大学毕业,获得物理学学士学位。

2000年,她进入加州理工学院攻读研究生,2005年获得电子工程博士学位。

2017—2018年,李飞飞在谷歌担任副总裁及Google Cloud AI/ML首席科学家。

李飞飞的主要研究领域包括人工智能、机器学习、深度学习、计算机视觉、机器人学习以及AI在医疗保健中的应用。

她发明了ImageNet和ImageNet挑战赛,这一大规模数据集和基准测试工作被认为是深度学习和AI发展的重要推动力之一。




想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2025-2-6 22:37:49 | 显示全部楼层
感谢分享!!有论文太好了!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-2-6 22:38:01 | 显示全部楼层
@FishC 介绍DeepSeek实现原理
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2025-2-6 22:38:12 | 显示全部楼层
不二如是 发表于 2025-02-06 22:38
@FishC 介绍DeepSeek实现原理


DeepSeek实现原理

DeepSeek是一个基于深度学习的搜索引擎,其实现原理主要包括以下几个关键步骤:

  • 数据收集:DeepSeek首先需要从互联网上收集大量的数据,包括网页、图像、视频等。这一步通常通过爬虫程序来完成。
  • 数据预处理:收集到的数据可能包含噪音和冗余信息,需要进行清洗、过滤和标注。对于文本数据,还需要进行分词、去除停用词等预处理操作。
  • 模型训练:使用预处理后的数据来训练深度学习模型。常用的模型包括卷积神经网络(CNN)、循环神经网络(RNN)和变压器(Transformer)等。
  • 特征提取:训练好的模型可以用来从新数据中提取特征。这些特征通常是高维的向量,能够捕捉输入数据的语义信息。
  • 索引构建:将提取到的特征向量存储在高效的索引结构中,以便快速检索。这一步通常使用倒排索引或其他基于向量的检索方法。
  • 查询处理:当用户输入查询时,DeepSeek会将查询转化为特征向量,然后在索引中进行匹配,找出最相关的结果返回给用户。
  • 排序与优化:检索到的结果通常需要经过排序和优化,以确保最相关的内容排在前面。这一步可能会结合多种排序算法和策略。
  • 持续学习:随着用户反馈的积累,DeepSeek可以不断更新和优化其模型和索引,提高搜索性能。


通过以上步骤,DeepSeek能够实现高效且精准的搜索体验。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2025-2-7 01:04:02 | 显示全部楼层
强,这个都搞到了!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-2-7 07:36:36 | 显示全部楼层

过两天升级为VIP臻享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2025-2-8 16:44:11 | 显示全部楼层
感谢分享!!有论文太好了!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-23 05:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表