鱼C论坛

 找回密码
 立即注册
查看: 245|回复: 2

[大语言模型] DeepSeek「R1」最新论文研读!超级难 慎入以免被虐!!

[复制链接]
发表于 2025-2-5 11:00:00 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
a05f9cebb6b5a5e2b2ea2e14f536d622a9c85314.jpg@308w_174h.jpeg

DeepSeek R1 是由 DeepSeek 团队开发的推理模型,其核心原理是通过强化学习(Reinforcement Learning, RL)提升大型语言模型(LLM)的推理能力。

该模型系列包括两个版本:DeepSeek-R1-Zero 和 DeepSeek-R1。


在线学习:




DeepSeek R1核心技术:

【强化学习(RL)】:DeepSeek-R1-Zero 完全基于 RL 训练,无需监督微调(SFT),允许模型自主探索解决复杂问题的思维链(Chain of Thought, CoT)。

DeepSeek-R1 采用多阶段训练方法,结合冷启动数据和 RL,解决了 DeepSeek-R1-Zero 的局限性,同时实现了更高的性能。

【模型架构】:DeepSeek-R1-Zero 和 DeepSeek-R1 均采用 6710 亿参数的 Mixture-of-Experts (MoE) 架构,每个 token 仅激活 370 亿参数。

DeepSeek-R1 通过监督微调(使用精心挑选的“冷启动数据”)和强化学习的结合,提升了模型的可读性和连贯性。

【模型蒸馏】:DeepSeek 还发布了从 1.5B 到 70B 参数的蒸馏版本,这些模型基于 Qwen 和 Llama 架构,证明了复杂推理能力可以被压缩进更小、更高效的模型。

【模型蒸馏】:使用群体相对策略优化(GRPO)算法,结合准确性和格式奖励来增强推理能力,无需大量标注数据。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2025-2-6 09:04:20 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2025-2-8 16:13:28 | 显示全部楼层
学到了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-23 05:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表