鱼C论坛

 找回密码
 立即注册

16.语言模型

已有 130 次阅读2019-7-24 11:58 |个人分类:自然语言


        词向量模型与语言模型非常紧密地交织在一起。语言模型的质量评估是基于它们对词语用概率分布的表征能力。
        事实上,许多最先进的词向量模型都在攻坚的任务就是已有一串词语序列,预测下一个出现的词语将会是什么

    语言模型是干嘛的?chunking
        语言模型可以计算,任何句子的概率,例如”I love you too“的概率是多少?用数学语言表述,NN元语言模型
        根据一个词语的前N-1个词语,来计算这个词语的概率,如果我们有了一个2元模型,”I love you“的概率就等于
        P(I)X P(love | I) X P (you | love)P(I),2元模型就是一个10000 X 10000的矩阵,第mm行第nn
        列表示在第mm个词语条件下,第nn个词语出现的概率,即第mm个词语后面跟着第nn个词语的概率,如果我们知道了
        语言模型,我们就可以像计算”I love you“那样,计算任何一个句子的概率

    语言模型有什么用?
        语言模型在自然语言处理中占有重要的地位,在语音识别,机器翻译,汉语自动分词和句法分析等都有应用。因为
        这些模型都会有噪声,都会有几种不同的结果等着我们去选择,这时候就需要知道每种结果的概率,来帮助我们
        选择。为什么叫”语言模型“?因为这是统计学意义上的模型,又跟语言相关,所以叫语言模型,统计模型指一系列
        分布,参数模型指一系列可用有限个参数表示的模型。语言模型就是一种参数模型,它的参数是矩阵的所有cell。


    如何计算语言模型的参数?
        参数无法精确计算,只能大概估计,这里用的方法是极大似然估计,对于某个语料库,极大似然估计的意思是,哪个
        语言模型(什么样的参数)最有可能产生这个语料库尼?把这个问题分解成很多个小问题:当P(you|I)是多少时
        (love和I可以换成别的所有词),最有可能产生这个语料库尼?自然而然,我们会想到,统计语料库里一共有多少个
        I,一共有多少个I love ,然后做一下除法,就得到了我们想要的概率,这个概率最有可能产生这个语料库,我们
        对这个语料库里所有的词对做相同的计数和除法,就得到了我们想要的参数,也就得到了这个语料库的语言模型。

路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 04:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部