DAY

14.N-GRAM

已有 127 次阅读2019-7-24 11:23 |个人分类:自然语言

N-GRAM介绍

N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关，（这也是隐马尔可夫当中的假设）

整个句子出现的概率就等于各个词出现的概率乘积，各个词的概率可以通过语料库种统计计算得到。假设句子T是

有词系列w1，w2，w3,...,wn组成，用公式表示N-Gram语言模型如下：

P（T）= P(w1)*p(w2)*p(w3)***p(wn) = P(w1)*p(w2/w1)*p(w3|w1w2)**p(wn|w1w2w3...)

N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念，通常NLP中，人们基于一定的语料库，可以利用

N-Gram来预计或者评估一个句子是否合理

N-Gram对中文词性标注，中文分词有很好的效果，中文分词和POS是中文文本分析中非常重要的一环节，因此在此

作为N-Gram的应用简要介绍。此外，基于N-Gram还出现了更多有价值的语言模型，如NNLM、CBOW等

账号		自动登录	找回密码
密码			立即注册