已经一个词w,它的上下文是context(w),那么词w就是一个正例,其他词就是一个负例,但是负例样本太多了,我们怎么去选取尼?
在语料库C中,各个词出现的频率是不一样的,我们采样的时候要求高频词选中的概率较大,而低频词选中的概率较小,这就是一个带
权采样的问题。
如何负采样?
我们来看一下如何进行负采样,得到neg个负例。词汇表的大小为V,那么我们就将一段长度为1的线段分成V份,每份对应词汇表中
的一个词,当然每个词对应的线段长度是不一样的,高频词对应的线段长,低频词对应的线段短(根据词频采样,出现的次数越多),
负采样的概率越大),每个词w的线段长度由下式决定
在采样前,我们将这段长度为1的线段分成M等分,这里M>>V,这样能够给保证每个词对应的线段都会划分成对应的小块,而M分中每一份
都会罗在某一个词对应的线段上,采样的时候,我们只需要随机生成neg个数,对应的位置就是采样的负例词。