鱼C论坛

 找回密码
 立即注册
查看: 30|回复: 1

AI按"Token"收钱?一个汉字到底算几个Token

[复制链接]
发表于 6 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 中英文泡椒 于 2026-6-4 19:11 编辑

所有大模型平台——OpenAI、Anthropic、Google、DeepSeek、阿里,清一色按Token收费,而不是按字符或字数。

很多人想当然地以为"1个Token = 1个字",结果在估算成本时翻车。Token既不是字也不是词,它是AI自己的一套

切分单位。搞清楚它,你才能看懂账单、估对成本、避开几个常见的坑。

一、AI根本不"读字",它在拼乐高

AI处理文字的方式,和拼乐高积木非常像。

它不会一整个单词、一整个汉字地"读"。它有一个内部词表,里面装的是各种子词碎片——可能是一个完整单词,

可能是单词的一半,可能是一个汉字,也可能是几个汉字的组合。这些碎片就是Token。

613198802442902ba59183243ea57050.png

这也解释了一个广为流传的现象:"strawberry里有几个r"这种问题能难倒GPT。它眼里看到的不是十个字母排成一

排,而是 str / aw / berry 三块。让它数字母,相当于让你不打开盒子只看包装就数零件——只能瞎猜。这不是"AI

变笨了",是它根本就不在字母这个层级上工作。

二、中文为什么这么"贵"

直接看实测数据。同样一句话,中英文版本:

c423efc772102ff10f5636e7b605952d.png

因为像GPT、Claude这类模型的训练语料里,英文占绝大多数。BPE在切分时把更多"打包名额"分给了英文。中文相

对小众,很多汉字只能单独成Token,生僻字甚至要拆成2-3个Token——因为底层用的是字节级编码,一个汉字在UTF-8

里占3个字节。

不过到了2026年,情况已经在改善。国产模型针对中文做了大量优化——DeepSeek V3、Qwen 3系列、Kimi这些模型,

中文Token效率比早期的GPT高出不少,同样一段中文,消耗的Token可能少30%-40%。再叠加它们本身单价就低

(DeepSeek输入价格只有GPT的几十分之一),处理中文场景的成本差距相当可观。

三、结论

游客,如果您要查看本帖隐藏内容请回复


小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 6 小时前 | 显示全部楼层
之前一直以为token就是按字数收费,看完才知道踩了这么多坑。提个建议:用各家的在线Tokenizer实测一下最准,之前试过DeepSeek的网页版,切分结果跟GPT差距挺大的。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-6-4 22:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表