|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 中英文泡椒 于 2026-6-4 19:11 编辑
所有大模型平台——OpenAI、Anthropic、Google、DeepSeek、阿里,清一色按Token收费,而不是按字符或字数。
很多人想当然地以为"1个Token = 1个字",结果在估算成本时翻车。Token既不是字也不是词,它是AI自己的一套
切分单位。搞清楚它,你才能看懂账单、估对成本、避开几个常见的坑。
一、AI根本不"读字",它在拼乐高
AI处理文字的方式,和拼乐高积木非常像。
它不会一整个单词、一整个汉字地"读"。它有一个内部词表,里面装的是各种子词碎片——可能是一个完整单词,
可能是单词的一半,可能是一个汉字,也可能是几个汉字的组合。这些碎片就是Token。
这也解释了一个广为流传的现象:"strawberry里有几个r"这种问题能难倒GPT。它眼里看到的不是十个字母排成一
排,而是 str / aw / berry 三块。让它数字母,相当于让你不打开盒子只看包装就数零件——只能瞎猜。这不是"AI
变笨了",是它根本就不在字母这个层级上工作。
二、中文为什么这么"贵"
直接看实测数据。同样一句话,中英文版本:
因为像GPT、Claude这类模型的训练语料里,英文占绝大多数。BPE在切分时把更多"打包名额"分给了英文。中文相
对小众,很多汉字只能单独成Token,生僻字甚至要拆成2-3个Token——因为底层用的是字节级编码,一个汉字在UTF-8
里占3个字节。
不过到了2026年,情况已经在改善。国产模型针对中文做了大量优化——DeepSeek V3、Qwen 3系列、Kimi这些模型,
中文Token效率比早期的GPT高出不少,同样一段中文,消耗的Token可能少30%-40%。再叠加它们本身单价就低
(DeepSeek输入价格只有GPT的几十分之一),处理中文场景的成本差距相当可观。
三、结论
|
|