鱼C论坛

 找回密码
 立即注册
查看: 24|回复: 1

[大语言模型] DeepSeek(深度求索)开源「R1」UC伯克利教授惊呼:美国是时候迎头赶上了!

[复制链接]
发表于 3 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
c51973b18d360cc251f17d961361c71dd91d5630.jpg@308w_174h.jpeg

DeepSeek R1是由DeepSeek公司发布的高性能推理模型,旨在通过强化学习(Reinforcement Learning, RL)提升模型在数学、代码和自然语言推理等任务上的表现。

在线学习:



DeepSeek R1系列包括两个主要模型:

  • DeepSeek-R1-Zero:完全通过大规模强化学习训练,无需监督微调(Supervised Fine-Tuning, SFT),展示了强大的推理能力。
  • DeepSeek-R1:在R1-Zero的基础上引入冷启动数据,通过多阶段训练进一步提升性能。

训练方法

  • 纯强化学习(RL):DeepSeek-R1-Zero证明了仅通过RL即可显著提升模型的推理能力,无需任何监督微调。该模型通过GRPO(Group Relative Policy Optimization)算法进行训练,避免了传统RL中复杂的Critic模型。
  • 冷启动数据:DeepSeek-R1在RL训练前引入了少量高质量的冷启动数据,解决了R1-Zero中可读性差和语言混合的问题。
  • 多阶段训练:包括推理导向的强化学习、拒绝采样与监督微调(SFT)以及全场景强化学习。

纯RL打造推理王者,引爆AI圈!

期待小甲鱼老师的DeepSeek教程吗?




想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2 小时前 | 显示全部楼层
期待!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-22 23:37

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表