DeepSeek(深度求索)开源「R1」UC伯克利教授惊呼：美国是时候迎头赶上了！

不二如是 · 发表于 2025-1-22 20:00:00

您需要登录才可以下载或查看，没有账号？立即注册

x

DeepSeek R1是由DeepSeek公司发布的高性能推理模型，旨在通过强化学习（Reinforcement Learning, RL）提升模型在数学、代码和自然语言推理等任务上的表现。

在线学习：

DeepSeek R1系列包括两个主要模型：

训练方法

纯强化学习（RL）：DeepSeek-R1-Zero证明了仅通过RL即可显著提升模型的推理能力，无需任何监督微调。该模型通过GRPO（Group Relative Policy Optimization）算法进行训练，避免了传统RL中复杂的Critic模型。
冷启动数据：DeepSeek-R1在RL训练前引入了少量高质量的冷启动数据，解决了R1-Zero中可读性差和语言混合的问题。
多阶段训练：包括推理导向的强化学习、拒绝采样与监督微调（SFT）以及全场景强化学习。

纯RL打造推理王者，引爆AI圈！

期待小甲鱼老师的DeepSeek教程吗？

小甲鱼的二师兄 · 发表于 2025-1-22 21:22:18

期待！

tomok · 发表于 2025-1-23 10:24:22

点赞 DeepSeek公司

不二如是 · 发表于 2025-1-23 10:25:04

tomok 发表于 2025-1-23 10:24
点赞 DeepSeek公司

用起来～～

快速收敛 · 发表于 2025-1-24 10:51:00

用起来~

不二如是 · 发表于 2025-2-23 22:26:19

朕已阅

账号		自动登录	找回密码
密码			立即注册

[最新资讯] DeepSeek(深度求索)开源「R1」UC伯克利教授惊呼：美国是时候迎头赶上了！