如何在CBOW模式下运行MLlib的word2vec？

我的理解是，word2vec可以在两种模式下运行：如何在CBOW模式下运行MLlib的word2vec？

连续袋的字（CBOW）（词的顺序并不重要）
连续跳过克（字事项顺序）

我想运行从星火的MLlib的CBOW实现，但我不明白的文件和他们的榜样如何做到这一点。这是他们页面上列出的例子。

来源：https://spark.apache.org/docs/2.1.0/mllib-feature-extraction.html#example

import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} 

val input = sc.textFile("data/mllib/sample_lda_data.txt").map(line => line.split(" ").toSeq) 

val word2vec = new Word2Vec() 

val model = word2vec.fit(input) 

val synonyms = model.findSynonyms("1", 5) 

for((synonym, cosineSimilarity) <- synonyms) { 
    println(s"$synonym $cosineSimilarity") 
}

我的问题：

没有这个例子中使用哪两种模式？
您知道吗我可以在CBOW模式下运行模型？

在此先感谢！

来源

2017-09-26 magicalo

似乎MLlib目前只实现skip-gram。

以下是Skip-gram模型的开放票/拉请求：https://issues.apache.org/jira/browse/SPARK-20372

来源

2017-09-28 15:35:23 magicalo

如何在CBOW模式下运行MLlib的word2vec？

回答

相关问题