「DeepSeek」是什么？IBM技术内幕揭秘！,科技·AI·新纪元,前沿与探索,鱼C论坛

不二如是 发表于 2025-2-9 15:00:00

「DeepSeek」是什么？IBM技术内幕揭秘！

DeepSeek-R1的关键技术：

[*]强化学习的应用：DeepSeek-R1-Zero是通过大规模强化学习训练的模型，没有使用监督微调（SFT）作为初步步骤。它在推理任务上表现出色，但存在可读性差和语言混合等问题。
[*]冷启动数据和多阶段训练：为了解决上述问题，DeepSeek-R1引入了冷启动数据和多阶段训练流程。这使得模型在推理任务上的表现与OpenAI的o1-1217相当。
[*]模型蒸馏：DeepSeek团队还通过蒸馏技术将DeepSeek-R1的推理能力迁移到更小的模型上，例如基于Qwen和Llama的多个小型密集模型。这些小型模型在推理任务上表现优异。

在线学习：

https://www.bilibili.com/video/BV1K6NVeQEgk

在数学、代码和自然语言推理等复杂任务上，DeepSeek-R1的性能与OpenAI的o1相当。

在世界大模型排名Arena上，DeepSeek-R1的基准测试升至全类别大模型第三，并在风格控制类模型分类中与OpenAI o1并列第一。

未来计划探索如何利用长链式思维（Chain-of-Thought, CoT）来提升模型在函数调用、多轮对话等任务上的能力。

解决语言混合问题，优化对其他语言的处理能力。

减少对提示的敏感性，提高模型在不同提示设置下的性能。

快速收敛 发表于 2025-2-10 08:35:33

感谢分享~~

sunshine_8205 发表于 2025-2-10 08:50:40

感谢分享~~

不二如是 发表于 2025-2-11 23:21:33

感谢分享朕很有启发

energyplaywx 发表于 2025-2-13 10:00:48

感谢分享很有启发

不二如是 发表于 2025-3-15 21:27:22

感谢分享朕很有启发

页: [1]

鱼C论坛's Archiver

「DeepSeek」是什么？IBM技术内幕揭秘！