N-GRAM介绍
N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关,(这也是隐马尔可夫当中的假设)
整个句子出现的概率就等于各个词出现的概率乘积,各个词的概率可以通过语料库种统计计算得到。假设句子T是
有词系列w1,w2,w3,...,wn组成,用公式表示N-Gram语言模型如下:
P(T)= P(w1)*p(w2)*p(w3)***p(wn) = P(w1)*p(w2/w1)*p(w3|w1w2)**p(wn|w1w2w3...)
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常NLP中,人们基于一定的语料库,可以利用
N-Gram来预计或者评估一个句子是否合理
N-Gram对中文词性标注,中文分词有很好的效果,中文分词和POS是中文文本分析中非常重要的一环节,因此在此
作为N-Gram的应用简要介绍。此外,基于N-Gram还出现了更多有价值的语言模型,如NNLM、CBOW等