GLM-5.1高速版:400 tokens/s,顶尖模型跑出最快速度
今天上午,智谱 AI 搞了个大动作:发布了 GLM-5.1-HighSpeed 高速版。数据很直接,输出速度 400 tokens/s,刷新了全球大模型 API 的速度上限。
但光说数字你可能没感觉。翻译成人话就是:以前你得等 AI 一个字一个字往外蹦,现在它像机关枪一样往外喷。
之前AI写代码像CPU渲图一样,是一点一点打出来;但这个AI写代码,更像GPU:
真正的重点是,它没变聪明也没变傻。
AI 圈有个不成文的规矩:快 = 小。市面上大部分号称「秒回」的模型,背后基本都是轻量级版本,参数少、能力
强不到哪去,胜在便宜和快。GLM-5.1-HighSpeed 高速版破了这个规矩。它不是一个「为了跑得快而缩水能力」的
轻量版,而是在保留了 GLM-5.1 旗舰级能力的基础上,把推理速度拉到了 400 tokens/s。
这是国产大模型第一次把旗舰能力和低延迟同时塞进生产环境里。
什么场景最需要?
高速版针对的就是等不了的场景:
AI 编程:写代码的时候,你每敲一行,AI 在背后实时补全。慢了你会抓狂。
实时语音交互:你跟 AI 说话,它要是顿个两秒再回你,体验直接崩。
商业决策场景:客户等着看分析结果,你总不能说“稍等,AI 在思考”。
实时交互类产品:聊天机器人、客服、内容生成流水线,速度就是体验。
简单说,凡是需要「秒回」的场景,这就是最优解。
现在智谱只向部分企业客户 开放了 GLM-5.1 高速版 API,API 名叫 glm-5.1-highspeed,走智谱 MaaS 平台接入。
价格还没公布,但考虑到 400 tokens/s 的速度背后是重写的推理引擎加多卡集群优化,估计不会太便宜。 智谱在国内相当可以了,就是有点贵
页:
[1]