DAY

18.负采样

已有 177 次阅读2019-7-24 16:13 |个人分类:自然语言

已经一个词w，它的上下文是context（w）,那么词w就是一个正例，其他词就是一个负例，但是负例样本太多了，我们怎么去选取尼？

在语料库C中，各个词出现的频率是不一样的，我们采样的时候要求高频词选中的概率较大，而低频词选中的概率较小，这就是一个带

权采样的问题。

如何负采样？

我们来看一下如何进行负采样，得到neg个负例。词汇表的大小为V，那么我们就将一段长度为1的线段分成V份，每份对应词汇表中

的一个词，当然每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短（根据词频采样，出现的次数越多），

负采样的概率越大），每个词w的线段长度由下式决定

在采样前，我们将这段长度为1的线段分成M等分，这里M>>V,这样能够给保证每个词对应的线段都会划分成对应的小块，而M分中每一份

都会罗在某一个词对应的线段上，采样的时候，我们只需要随机生成neg个数，对应的位置就是采样的负例词。

账号		自动登录	找回密码
密码			立即注册