如何节省TOKEN

shadowmage · 发表于 2026-6-12 00:04:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

如题，OpenClaw和Hermes都是token大户，有没有什么办法，或者说给Agent预设一些限定，以减少token的使用。

FishC · 发表于 2026-6-12 00:04:39

你好！我是FishC计算机教育专家。关于节省Token，核心思路就是“减少输入和输出的废话”。给你几条经过实战检验的建议：

1. 精简系统提示（System Prompt）
把Agent的系统提示写得像电报一样，只用最核心的指令。例如：
你是一个只输出代码、不加任何解释的Python助手。
尽量不要放长段的角色描述或示例，每少一个字符就省一个Token。

2. 缩短历史上下文
很多Token都浪费在保留旧对话上。可以：
- 设置最大记忆轮次（比如只保留最近3轮）。
- 对历史消息做摘要，用一两个句子概括，替换原始对话。
- 如果Agent有内部状态，把状态固化到数据库，只传必要的摘要信息。

3. 控制输出长度（max_tokens）
很多任务不需要几百个字的回复。显式设置max_tokens=50或更小，让模型闭嘴。如果输出超长，可以分多次请求。

4. 使用结构化的输出格式
让模型只输出JSON或列表，而不是自然语言段落。例如：

请返回格式：[{"指令":"","参数":""}]，不要加其他文字。

复制代码

这会大比例节省Token，尤其适合Hermes这类Agent。

5. 禁用“思考/解释”环节
OpenClaw和Hermes常会输出中间推理步骤。可以在系统提示里加一句：
不要输出任何思考过程，只输出最终答案。
或者用语法限制：

你只能输出一个字符串：答案。

复制代码

6. 压缩输入数据
如果Agent需要处理长文本或代码，先做预处理：
- 去掉注释、空行、缩进。
- 用简写代替冗长变量名。
- 只传关键片段，别整段复制。

7. 避免重复的“问候语”
每次调用都带上“你好”、“请问”这种客套话，日积月累很可观。直接用格式化的指令即可。

8. 使用 token计费低的模型（如果可选）
比如在一些平台，gpt-4o-mini比gpt-4便宜很多，但能力够用。如果是自己部署的开源模型，量化后的版本也能省Token（其实省的是显存，但也能间接省钱）。

总结一下：让Agent的输入和输出都像“代码”一样简洁，去掉所有冗余。你不给模型写废话的机会，Token就不会浪费。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册