鱼C论坛

 找回密码
 立即注册

18.负采样

已有 177 次阅读2019-7-24 16:13 |个人分类:自然语言



已经一个词w,它的上下文是context(w),那么词w就是一个正例,其他词就是一个负例,但是负例样本太多了,我们怎么去选取尼?
在语料库C中,各个词出现的频率是不一样的,我们采样的时候要求高频词选中的概率较大,而低频词选中的概率较小,这就是一个带
权采样的问题。

如何负采样?
    我们来看一下如何进行负采样,得到neg个负例。词汇表的大小为V,那么我们就将一段长度为1的线段分成V份,每份对应词汇表中
    的一个词,当然每个词对应的线段长度是不一样的,高频词对应的线段长,低频词对应的线段短(根据词频采样,出现的次数越多),
    负采样的概率越大),每个词w的线段长度由下式决定

    在采样前,我们将这段长度为1的线段分成M等分,这里M>>V,这样能够给保证每个词对应的线段都会划分成对应的小块,而M分中每一份
    都会罗在某一个词对应的线段上,采样的时候,我们只需要随机生成neg个数,对应的位置就是采样的负例词。

    

路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-5 04:47

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部