2017-10-05 71 views
0

我听说与word2vec一起使用的术语“负采样”和“子采样”很多。负抽样和二次采样

在我试图搞砸word2vec之前,我试图回到引用单词嵌入的论文,并从头开始。本文线索已经落在这里我:

https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(谷歌的,如果你不信任的链接“在向量空间字代表处的有效估计”)

,并指出:

enter image description here

(我熟悉所有项目符号减去第一个)

我发现在负取样和二次采样中唯一的东西已经包含在有关word2vec和tha这就是我想要避免的。

如果任何人可以解释这些条款或指出我在正确的方向,这将不胜感激:)。

编辑:下采样标记它的自我导致了这样的定义:

“子采样重采样过程类似于引导,其中除了所有观测较少正在与更换绘制(相对于所使用的原始样本大小教科书引导方法)为了从现有数据中创建样本,请考虑“取样”标签。“ ---这是一个很好的例子。

回答

1

我终于找到的东西负采样,其中,如果你学的是计算机科学,都知道“连接点” a.k.a图,这将是一个非常有用的链接,谁想要一个具体的例子。

https://www.safaribooksonline.com/library/view/mastering-java-for/9781782174271/056ce305-83f2-4efe-993a-b549b7ea3133.xhtml

(或谷歌: “掌握了科学的数据负采样的Java”)

对于二次抽样,我会使用它的NLP,所以这是最相关的:

enter image description here

(取自https://www.safaribooksonline.com/library/view/python-natural-language/9781787121423/f7035ac3-7624-4b80-b464-64ed8a7f252a.xhtml