中英文泡椒 发表于 3 天前

GLM-5.1高速版:400 tokens/s,顶尖模型跑出最快速度

今天上午,智谱 AI 搞了个大动作:发布了 GLM-5.1-HighSpeed 高速版。数据很直接,输出速度 400 tokens/s,

刷新了全球大模型 API 的速度上限。



但光说数字你可能没感觉。翻译成人话就是:以前你得等 AI 一个字一个字往外蹦,现在它像机关枪一样往外喷。

之前AI写代码像CPU渲图一样,是一点一点打出来;但这个AI写代码,更像GPU:



真正的重点是,它没变聪明也没变傻。



AI 圈有个不成文的规矩:快 = 小。市面上大部分号称「秒回」的模型,背后基本都是轻量级版本,参数少、能力

强不到哪去,胜在便宜和快。GLM-5.1-HighSpeed 高速版破了这个规矩。它不是一个「为了跑得快而缩水能力」的

轻量版,而是在保留了 GLM-5.1 旗舰级能力的基础上,把推理速度拉到了 400 tokens/s。

这是国产大模型第一次把旗舰能力和低延迟同时塞进生产环境里。

什么场景最需要?



高速版针对的就是等不了的场景:

AI 编程:写代码的时候,你每敲一行,AI 在背后实时补全。慢了你会抓狂。

实时语音交互:你跟 AI 说话,它要是顿个两秒再回你,体验直接崩。

商业决策场景:客户等着看分析结果,你总不能说“稍等,AI 在思考”。

实时交互类产品:聊天机器人、客服、内容生成流水线,速度就是体验。

简单说,凡是需要「秒回」的场景,这就是最优解。

现在智谱只向部分企业客户 开放了 GLM-5.1 高速版 API,API 名叫 glm-5.1-highspeed,走智谱 MaaS 平台接入。

价格还没公布,但考虑到 400 tokens/s 的速度背后是重写的推理引擎加多卡集群优化,估计不会太便宜。

小甲鱼 发表于 前天 03:12

智谱在国内相当可以了,就是有点贵
页: [1]
查看完整版本: GLM-5.1高速版:400 tokens/s,顶尖模型跑出最快速度