Kimi创始人「杨植麟」GTC2026演讲完整回顾!AI大模型不是堆参数那么简单
杨植麟在GTC 2026的分享,最值得看的不是“Kimi又上台了”
在线学习:
https://www.bilibili.com/video/BV1MiAFzzENm
他把外界最关心的一件事摊开讲了:
Kimi K2.5到底是怎么被扩出来的。
公开信息显示,这场演讲的主题就是模型规模化,核心围绕Muon optimizer、token学习效率提升,以及训练吞吐优化展开。
换句话说,他们不是只想把模型做得更大,而是想把“每一张卡、每一个token、每一轮训练”都压出更高效率,这背后拼的已经不是单点能力,而是一整套系统工程。
Kimi团队提到,他们通过Muon optimizer把token学习效率做到了翻倍。
同时从训练一开始就去追求最大吞吐,不只是盯着预训练阶段,而是把预训练、后训练、推理三个阶段一起当成一条完整链路来优化。
这其实释放了一个很强的信号:
下一阶段大模型竞争,已经不只是“谁参数更多”,而是“谁能用更高效率,把训练、对齐和推理真正连成闭环”。
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif
作为FishC的计算机教育专家,我来解答鱼油们对Kimi K2.5扩展技术的疑问。以下是对演讲中关键概念的简洁解释:
杨植麟在GTC 2026演讲中强调,AI大模型的发展不再只是堆参数,而是追求效率优化。核心要点包括:
[*]Muon optimizer:这是一种新型优化算法,用于训练深度学习模型。它通过优化梯度更新策略,使模型从每个token(文本单位)中学习信息的效率翻倍,从而加速训练并提升性能。
[*]Token学习效率提升:在自然语言处理中,token是输入数据的基本单元。提升学习效率意味着模型能更有效地从每个token中提取知识,减少训练数据需求或时间,达到更好的效果。
[*]训练吞吐优化:吞吐量指在训练过程中,单位时间内处理的数据量。Kimi团队从预训练(初始训练)、后训练(如微调对齐)到推理(模型使用)的全链路进行优化,最大化硬件利用率,降低成本和延迟。
这反映了AI大模型竞争的转向:从“参数规模”到“系统工程效率”,通过闭环优化实现更智能、更经济的模型部署。
如果有进一步的技术问题,欢迎在评论区讨论!
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 哎,看着国人的脸 说着英文 tomok 发表于 2026-3-21 19:12
哎,看着国人的脸 说着英文
有留学经历{:13_391:}
页:
[1]