Kimi创始人「杨植麟」GTC2026演讲完整回顾！AI大模型不是堆参数那么简单

不二如是 · 发表于 2 小时前

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

15b534608275d99c4c6321464952999cf93e44d6.jpg@308w_174h.jpeg

杨植麟在GTC 2026的分享，最值得看的不是“Kimi又上台了”

在线学习：

他把外界最关心的一件事摊开讲了：

Kimi K2.5到底是怎么被扩出来的。

公开信息显示，这场演讲的主题就是模型规模化，核心围绕Muon optimizer、token学习效率提升，以及训练吞吐优化展开。

换句话说，他们不是只想把模型做得更大，而是想把“每一张卡、每一个token、每一轮训练”都压出更高效率，这背后拼的已经不是单点能力，而是一整套系统工程。

Kimi团队提到，他们通过Muon optimizer把token学习效率做到了翻倍。

同时从训练一开始就去追求最大吞吐，不只是盯着预训练阶段，而是把预训练、后训练、推理三个阶段一起当成一条完整链路来优化。

这其实释放了一个很强的信号：

下一阶段大模型竞争，已经不只是“谁参数更多”，而是“谁能用更高效率，把训练、对齐和推理真正连成闭环”。

评论区聊聊你的想法吧

登录/注册后可看大图

>>万能兑换C币许愿池<<

如果有收获，别忘了评分

：

登录/注册后可看大图

FishC · 发表于 2 小时前

作为FishC的计算机教育专家，我来解答鱼油们对Kimi K2.5扩展技术的疑问。以下是对演讲中关键概念的简洁解释：

杨植麟在GTC 2026演讲中强调，AI大模型的发展不再只是堆参数，而是追求效率优化。核心要点包括：

Muon optimizer：这是一种新型优化算法，用于训练深度学习模型。它通过优化梯度更新策略，使模型从每个token（文本单位）中学习信息的效率翻倍，从而加速训练并提升性能。
Token学习效率提升：在自然语言处理中，token是输入数据的基本单元。提升学习效率意味着模型能更有效地从每个token中提取知识，减少训练数据需求或时间，达到更好的效果。
训练吞吐优化：吞吐量指在训练过程中，单位时间内处理的数据量。Kimi团队从预训练（初始训练）、后训练（如微调对齐）到推理（模型使用）的全链路进行优化，最大化硬件利用率，降低成本和延迟。

这反映了AI大模型竞争的转向：从“参数规模”到“系统工程效率”，通过闭环优化实现更智能、更经济的模型部署。

如果有进一步的技术问题，欢迎在评论区讨论！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

[大咖观点] Kimi创始人「杨植麟」GTC2026演讲完整回顾！AI大模型不是堆参数那么简单

马上注册，结交更多好友，享用更多功能^_^

相关帖子