不二如是 发表于 2025-9-19 11:00:00

「令牌」LLM不会算数的“罪魁祸首”!3分钟速懂



在自然语言处理中,文本首先要被切分为小块(令牌 / token),这些令牌可以是一整个词、词的子部分(subword),甚至是字符。

模型不是直接对字母或数字进行操作,而是对这些令牌(每个令牌映射为一个数字 ID + 向量表示)进行预测和生成。

在线学习:

https://www.bilibili.com/video/BV1YKWMz9EsP

数字(尤其是较大的数字或很少见的数字字符串)可能被切成多个令牌。

例如 “87439” 在训练语料里如果不常见,可能被切为 “874” + “39”,或者每个数字都被拆开。

这样模型就不能把这个数字作为一个整体来“看待”其大小或数值,而是把它当成一串符号(symbol patterns)来处理。

“令牌”问题就是说数字在模型内部被切分/表示方式导致模型 看成了符号串而不是数值,从而导致很多基本算术操作(进位、对齐、多位统计等)不能被正确执行。

改进令牌化策略、让数字分割粒度更细或者对齐方式更有利,加上辅助的符号/算数模块,可以显著提升算术表现。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  
页: [1]
查看完整版本: 「令牌」LLM不会算数的“罪魁祸首”!3分钟速懂