DeepSeek(深度求索)开源「R1」UC伯克利教授惊呼：美国是时候迎头赶上了！,科技·AI·开源,前沿与探索,鱼C论坛

不二如是 发表于 2025-1-22 20:00:00

DeepSeek(深度求索)开源「R1」UC伯克利教授惊呼：美国是时候迎头赶上了！

DeepSeek R1是由DeepSeek公司发布的高性能推理模型，旨在通过强化学习（Reinforcement Learning, RL）提升模型在数学、代码和自然语言推理等任务上的表现。

在线学习：

https://www.bilibili.com/video/BV1ddf4YxEuZ

DeepSeek R1系列包括两个主要模型：

[*]DeepSeek-R1-Zero：完全通过大规模强化学习训练，无需监督微调（Supervised Fine-Tuning, SFT），展示了强大的推理能力。
[*]DeepSeek-R1：在R1-Zero的基础上引入冷启动数据，通过多阶段训练进一步提升性能。

训练方法

[*]纯强化学习（RL）：DeepSeek-R1-Zero证明了仅通过RL即可显著提升模型的推理能力，无需任何监督微调。该模型通过GRPO（Group Relative Policy Optimization）算法进行训练，避免了传统RL中复杂的Critic模型。
[*]冷启动数据：DeepSeek-R1在RL训练前引入了少量高质量的冷启动数据，解决了R1-Zero中可读性差和语言混合的问题。
[*]多阶段训练：包括推理导向的强化学习、拒绝采样与监督微调（SFT）以及全场景强化学习。

纯RL打造推理王者，引爆AI圈！

期待小甲鱼老师的DeepSeek教程吗？

小甲鱼的二师兄 发表于 2025-1-22 21:22:18

{:10_254:} 期待！

tomok 发表于 2025-1-23 10:24:22

点赞DeepSeek公司

不二如是 发表于 2025-1-23 10:25:04

tomok 发表于 2025-1-23 10:24
点赞DeepSeek公司

用起来～～

快速收敛 发表于 2025-1-24 10:51:00

用起来~

不二如是 发表于 2025-2-23 22:26:19

朕已阅

页: [1]

鱼C论坛's Archiver

DeepSeek(深度求索)开源「R1」UC伯克利教授惊呼：美国是时候迎头赶上了！