GLM-5.1高速版：400 tokens/s，顶尖模型跑出最快速度

中英文泡椒 · 发表于 2026-5-22 15:04:37

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

今天上午，智谱 AI 搞了个大动作：发布了 GLM-5.1-HighSpeed 高速版。数据很直接，输出速度 400 tokens/s，

刷新了全球大模型 API 的速度上限。

640 (2).gif

但光说数字你可能没感觉。翻译成人话就是：以前你得等 AI 一个字一个字往外蹦，现在它像机关枪一样往外喷。

之前AI写代码像CPU渲图一样，是一点一点打出来；但这个AI写代码，更像GPU：

640 (1)_compressed.gif

真正的重点是，它没变聪明也没变傻。

AI 圈有个不成文的规矩：快 = 小。市面上大部分号称「秒回」的模型，背后基本都是轻量级版本，参数少、能力

强不到哪去，胜在便宜和快。GLM-5.1-HighSpeed 高速版破了这个规矩。它不是一个「为了跑得快而缩水能力」的

轻量版，而是在保留了 GLM-5.1 旗舰级能力的基础上，把推理速度拉到了 400 tokens/s。

这是国产大模型第一次把旗舰能力和低延迟同时塞进生产环境里。

什么场景最需要？

640 (1).png

高速版针对的就是等不了的场景：

AI 编程：写代码的时候，你每敲一行，AI 在背后实时补全。慢了你会抓狂。

实时语音交互：你跟 AI 说话，它要是顿个两秒再回你，体验直接崩。

商业决策场景：客户等着看分析结果，你总不能说“稍等，AI 在思考”。

实时交互类产品：聊天机器人、客服、内容生成流水线，速度就是体验。

简单说，凡是需要「秒回」的场景，这就是最优解。

现在智谱只向部分企业客户开放了 GLM-5.1 高速版 API，API 名叫 glm-5.1-highspeed，走智谱 MaaS 平台接入。

价格还没公布，但考虑到 400 tokens/s 的速度背后是重写的推理引擎加多卡集群优化，估计不会太便宜。

小甲鱼 · 发表于 2026-5-23 03:12:50

智谱在国内相当可以了，就是有点贵

账号		自动登录	找回密码
密码			立即注册

GLM-5.1高速版：400 tokens/s，顶尖模型跑出最快速度

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块