「令牌」LLM不会算数的“罪魁祸首”！3分钟速懂

不二如是 · 发表于 2025-9-19 11:00:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

69aa373b9a8fc67d1d71ef9a76499fa481eaa8ac.jpg@308w_174h.jpeg

在自然语言处理中，文本首先要被切分为小块（令牌 / token），这些令牌可以是一整个词、词的子部分（subword），甚至是字符。

模型不是直接对字母或数字进行操作，而是对这些令牌（每个令牌映射为一个数字 ID + 向量表示）进行预测和生成。

在线学习：

数字（尤其是较大的数字或很少见的数字字符串）可能被切成多个令牌。

例如 “87439” 在训练语料里如果不常见，可能被切为 “874” + “39”，或者每个数字都被拆开。

这样模型就不能把这个数字作为一个整体来“看待”其大小或数值，而是把它当成一串符号（symbol patterns）来处理。

“令牌”问题就是说数字在模型内部被切分／表示方式导致模型看成了符号串而不是数值，从而导致很多基本算术操作（进位、对齐、多位统计等）不能被正确执行。

改进令牌化策略、让数字分割粒度更细或者对齐方式更有利，加上辅助的符号／算数模块，可以显著提升算术表现。

评论区聊聊你的想法吧

登录/注册后可看大图

>>万能兑换C币许愿池<<

如果有收获，别忘了评分

：

登录/注册后可看大图

不二如是 · 发表于 2025-10-27 10:23:51

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-10-30 08:38:16

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-3 08:05:04

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-3 08:05:29

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-6 09:02:02

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-8 09:17:02

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-8 09:17:27

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-13 08:47:58

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-13 08:48:23

感谢分享朕又在鱼C学到AI知识啦！非常满意

不二如是 · 发表于 2025-11-15 08:59:44

感谢分享朕又在鱼C学到AI知识啦！非常满意

账号		自动登录	找回密码
密码			立即注册

[基础知识] 「令牌」LLM不会算数的“罪魁祸首”！3分钟速懂

马上注册，结交更多好友，享用更多功能^_^

评分

相关帖子

浏览过的版块