不二如是 发表于 2025-2-5 11:00:00

DeepSeek「R1」最新论文研读!超级难 慎入以免被虐!!



DeepSeek R1 是由 DeepSeek 团队开发的推理模型,其核心原理是通过强化学习(Reinforcement Learning, RL)提升大型语言模型(LLM)的推理能力。

该模型系列包括两个版本:DeepSeek-R1-Zero 和 DeepSeek-R1。


在线学习:

https://www.bilibili.com/video/BV1pFNFerE7r


DeepSeek R1核心技术:

【强化学习(RL)】:DeepSeek-R1-Zero 完全基于 RL 训练,无需监督微调(SFT),允许模型自主探索解决复杂问题的思维链(Chain of Thought, CoT)。

DeepSeek-R1 采用多阶段训练方法,结合冷启动数据和 RL,解决了 DeepSeek-R1-Zero 的局限性,同时实现了更高的性能。

【模型架构】:DeepSeek-R1-Zero 和 DeepSeek-R1 均采用 6710 亿参数的 Mixture-of-Experts (MoE) 架构,每个 token 仅激活 370 亿参数。

DeepSeek-R1 通过监督微调(使用精心挑选的“冷启动数据”)和强化学习的结合,提升了模型的可读性和连贯性。

【模型蒸馏】:DeepSeek 还发布了从 1.5B 到 70B 参数的蒸馏版本,这些模型基于 Qwen 和 Llama 架构,证明了复杂推理能力可以被压缩进更小、更高效的模型。

【模型蒸馏】:使用群体相对策略优化(GRPO)算法,结合准确性和格式奖励来增强推理能力,无需大量标注数据。

tomok 发表于 2025-2-6 09:04:20

{:5_108:}

快速收敛 发表于 2025-2-8 16:13:28

学到了
页: [1]
查看完整版本: DeepSeek「R1」最新论文研读!超级难 慎入以免被虐!!