鱼C论坛

 找回密码
 立即注册
查看: 41|回复: 2

[最新资讯] 「DeepSeek」是什么?IBM技术内幕揭秘!

[复制链接]
发表于 前天 15:00 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
3e574bc9e04111a84d57f687514198afa9ebdc64.jpg@308w_174h.jpeg

DeepSeek-R1的关键技术:

  • 强化学习的应用:DeepSeek-R1-Zero是通过大规模强化学习训练的模型,没有使用监督微调(SFT)作为初步步骤。它在推理任务上表现出色,但存在可读性差和语言混合等问题。
  • 冷启动数据和多阶段训练:为了解决上述问题,DeepSeek-R1引入了冷启动数据和多阶段训练流程。这使得模型在推理任务上的表现与OpenAI的o1-1217相当。
  • 模型蒸馏:DeepSeek团队还通过蒸馏技术将DeepSeek-R1的推理能力迁移到更小的模型上,例如基于Qwen和Llama的多个小型密集模型。这些小型模型在推理任务上表现优异。

在线学习:



在数学、代码和自然语言推理等复杂任务上,DeepSeek-R1的性能与OpenAI的o1相当。

在世界大模型排名Arena上,DeepSeek-R1的基准测试升至全类别大模型第三,并在风格控制类模型分类中与OpenAI o1并列第一。

未来计划探索如何利用长链式思维(Chain-of-Thought, CoT)来提升模型在函数调用、多轮对话等任务上的能力。

解决语言混合问题,优化对其他语言的处理能力。

减少对提示的敏感性,提高模型在不同提示设置下的性能。


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 昨天 08:35 | 显示全部楼层
感谢分享~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 昨天 08:50 | 显示全部楼层
感谢分享~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-11 08:59

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表