鱼C论坛

 找回密码
 立即注册

14.N-GRAM

已有 128 次阅读2019-7-24 11:23 |个人分类:自然语言

N-GRAM介绍
    N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关,(这也是隐马尔可夫当中的假设)
    整个句子出现的概率就等于各个词出现的概率乘积,各个词的概率可以通过语料库种统计计算得到。假设句子T是
    有词系列w1,w2,w3,...,wn组成,用公式表示N-Gram语言模型如下:
        P(T)= P(w1)*p(w2)*p(w3)***p(wn) = P(w1)*p(w2/w1)*p(w3|w1w2)**p(wn|w1w2w3...)
    
    N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常NLP中,人们基于一定的语料库,可以利用
    N-Gram来预计或者评估一个句子是否合理

    N-Gram对中文词性标注,中文分词有很好的效果,中文分词和POS是中文文本分析中非常重要的一环节,因此在此
    作为N-Gram的应用简要介绍。此外,基于N-Gram还出现了更多有价值的语言模型,如NNLM、CBOW等


路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 05:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部