我听说与word2vec一起使用的术语“负采样”和“子采样”很多。负抽样和二次采样
在我试图搞砸word2vec之前,我试图回到引用单词嵌入的论文,并从头开始。本文线索已经落在这里我:
https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(谷歌的,如果你不信任的链接“在向量空间字代表处的有效估计”)
,并指出:
(我熟悉所有项目符号减去第一个)
我发现在负取样和二次采样中唯一的东西已经包含在有关word2vec和tha这就是我想要避免的。
如果任何人可以解释这些条款或指出我在正确的方向,这将不胜感激:)。
编辑:下采样标记它的自我导致了这样的定义:
“子采样重采样过程类似于引导,其中除了所有观测较少正在与更换绘制(相对于所使用的原始样本大小教科书引导方法)为了从现有数据中创建样本,请考虑“取样”标签。“ ---这是一个很好的例子。