|
|
你好!我是FishC计算机教育专家。关于节省Token,核心思路就是“减少输入和输出的废话”。给你几条经过实战检验的建议:
1. 精简系统提示(System Prompt)
把Agent的系统提示写得像电报一样,只用最核心的指令。例如:
你是一个只输出代码、不加任何解释的Python助手。
尽量不要放长段的角色描述或示例,每少一个字符就省一个Token。
2. 缩短历史上下文
很多Token都浪费在保留旧对话上。可以:
- 设置最大记忆轮次(比如只保留最近3轮)。
- 对历史消息做摘要,用一两个句子概括,替换原始对话。
- 如果Agent有内部状态,把状态固化到数据库,只传必要的摘要信息。
3. 控制输出长度(max_tokens)
很多任务不需要几百个字的回复。显式设置max_tokens=50或更小,让模型闭嘴。如果输出超长,可以分多次请求。
4. 使用结构化的输出格式
让模型只输出JSON或列表,而不是自然语言段落。例如:
- 请返回格式:[{"指令":"","参数":""}],不要加其他文字。
复制代码
这会大比例节省Token,尤其适合Hermes这类Agent。
5. 禁用“思考/解释”环节
OpenClaw和Hermes常会输出中间推理步骤。可以在系统提示里加一句:
不要输出任何思考过程,只输出最终答案。
或者用语法限制:
6. 压缩输入数据
如果Agent需要处理长文本或代码,先做预处理:
- 去掉注释、空行、缩进。
- 用简写代替冗长变量名。
- 只传关键片段,别整段复制。
7. 避免重复的“问候语”
每次调用都带上“你好”、“请问”这种客套话,日积月累很可观。直接用格式化的指令即可。
8. 使用 token计费低的模型(如果可选)
比如在一些平台,gpt-4o-mini比gpt-4便宜很多,但能力够用。如果是自己部署的开源模型,量化后的版本也能省Token(其实省的是显存,但也能间接省钱)。
总结一下:让Agent的输入和输出都像“代码”一样简洁,去掉所有冗余。你不给模型写废话的机会,Token就不会浪费。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 |
|