DeepSeek「R1」最新论文研读！超级难慎入以免被虐！！

不二如是 · 发表于 2025-2-5 11:00:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

a05f9cebb6b5a5e2b2ea2e14f536d622a9c85314.jpg@308w_174h.jpeg

DeepSeek R1 是由 DeepSeek 团队开发的推理模型，其核心原理是通过强化学习（Reinforcement Learning, RL）提升大型语言模型（LLM）的推理能力。

该模型系列包括两个版本：DeepSeek-R1-Zero 和 DeepSeek-R1。

在线学习：

DeepSeek R1核心技术：

【强化学习（RL）】：DeepSeek-R1-Zero 完全基于 RL 训练，无需监督微调（SFT），允许模型自主探索解决复杂问题的思维链（Chain of Thought, CoT）。

DeepSeek-R1 采用多阶段训练方法，结合冷启动数据和 RL，解决了 DeepSeek-R1-Zero 的局限性，同时实现了更高的性能。

【模型架构】：DeepSeek-R1-Zero 和 DeepSeek-R1 均采用 6710 亿参数的 Mixture-of-Experts (MoE) 架构，每个 token 仅激活 370 亿参数。

DeepSeek-R1 通过监督微调（使用精心挑选的“冷启动数据”）和强化学习的结合，提升了模型的可读性和连贯性。

【模型蒸馏】：DeepSeek 还发布了从 1.5B 到 70B 参数的蒸馏版本，这些模型基于 Qwen 和 Llama 架构，证明了复杂推理能力可以被压缩进更小、更高效的模型。

【模型蒸馏】：使用群体相对策略优化（GRPO）算法，结合准确性和格式奖励来增强推理能力，无需大量标注数据。

tomok · 发表于 2025-2-6 09:04:20

快速收敛 · 发表于 2025-2-8 16:13:28

学到了

账号		自动登录	找回密码
密码			立即注册

[最新资讯] DeepSeek「R1」最新论文研读！超级难慎入以免被虐！！

马上注册，结交更多好友，享用更多功能^_^

相关帖子

浏览过的版块

[最新资讯] DeepSeek「R1」最新论文研读！超级难 慎入以免被虐！！

马上注册，结交更多好友，享用更多功能^_^

相关帖子

浏览过的版块

[最新资讯] DeepSeek「R1」最新论文研读！超级难慎入以免被虐！！