「DeepSeek」是什么？IBM技术内幕揭秘！

不二如是 · 发表于 2025-2-9 15:00:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

3e574bc9e04111a84d57f687514198afa9ebdc64.jpg@308w_174h.jpeg

DeepSeek-R1的关键技术：

强化学习的应用：DeepSeek-R1-Zero是通过大规模强化学习训练的模型，没有使用监督微调（SFT）作为初步步骤。它在推理任务上表现出色，但存在可读性差和语言混合等问题。
冷启动数据和多阶段训练：为了解决上述问题，DeepSeek-R1引入了冷启动数据和多阶段训练流程。这使得模型在推理任务上的表现与OpenAI的o1-1217相当。
模型蒸馏：DeepSeek团队还通过蒸馏技术将DeepSeek-R1的推理能力迁移到更小的模型上，例如基于Qwen和Llama的多个小型密集模型。这些小型模型在推理任务上表现优异。

在线学习：

在数学、代码和自然语言推理等复杂任务上，DeepSeek-R1的性能与OpenAI的o1相当。

在世界大模型排名Arena上，DeepSeek-R1的基准测试升至全类别大模型第三，并在风格控制类模型分类中与OpenAI o1并列第一。

未来计划探索如何利用长链式思维（Chain-of-Thought, CoT）来提升模型在函数调用、多轮对话等任务上的能力。

解决语言混合问题，优化对其他语言的处理能力。

减少对提示的敏感性，提高模型在不同提示设置下的性能。

快速收敛 · 发表于 2025-2-10 08:35:33

感谢分享~~

sunshine_8205 · 发表于 2025-2-10 08:50:40

感谢分享~~

不二如是 · 发表于 2025-2-11 23:21:33

感谢分享朕很有启发

energyplaywx · 发表于 2025-2-13 10:00:48

感谢分享很有启发

不二如是 · 发表于 2025-3-15 21:27:22

感谢分享朕很有启发

账号		自动登录	找回密码
密码			立即注册

[最新资讯] 「DeepSeek」是什么？IBM技术内幕揭秘！

马上注册，结交更多好友，享用更多功能^_^

相关帖子

浏览过的版块