不二如是 发表于 2025-2-9 15:00:00

「DeepSeek」是什么?IBM技术内幕揭秘!



DeepSeek-R1的关键技术:


[*]强化学习的应用:DeepSeek-R1-Zero是通过大规模强化学习训练的模型,没有使用监督微调(SFT)作为初步步骤。它在推理任务上表现出色,但存在可读性差和语言混合等问题。
[*]冷启动数据和多阶段训练:为了解决上述问题,DeepSeek-R1引入了冷启动数据和多阶段训练流程。这使得模型在推理任务上的表现与OpenAI的o1-1217相当。
[*]模型蒸馏:DeepSeek团队还通过蒸馏技术将DeepSeek-R1的推理能力迁移到更小的模型上,例如基于Qwen和Llama的多个小型密集模型。这些小型模型在推理任务上表现优异。

在线学习:

https://www.bilibili.com/video/BV1K6NVeQEgk

在数学、代码和自然语言推理等复杂任务上,DeepSeek-R1的性能与OpenAI的o1相当。

在世界大模型排名Arena上,DeepSeek-R1的基准测试升至全类别大模型第三,并在风格控制类模型分类中与OpenAI o1并列第一。

未来计划探索如何利用长链式思维(Chain-of-Thought, CoT)来提升模型在函数调用、多轮对话等任务上的能力。

解决语言混合问题,优化对其他语言的处理能力。

减少对提示的敏感性,提高模型在不同提示设置下的性能。


快速收敛 发表于 2025-2-10 08:35:33

感谢分享~~

sunshine_8205 发表于 2025-2-10 08:50:40

感谢分享~~

不二如是 发表于 2025-2-11 23:21:33

感谢分享 朕很有启发

energyplaywx 发表于 2025-2-13 10:00:48

感谢分享 很有启发

不二如是 发表于 2025-3-15 21:27:22

感谢分享 朕很有启发
页: [1]
查看完整版本: 「DeepSeek」是什么?IBM技术内幕揭秘!