1
我的理解是,word2vec可以在两种模式下运行:如何在CBOW模式下运行MLlib的word2vec?
- 连续袋的字(CBOW)(词的顺序并不重要)
- 连续跳过克(字事项顺序)
我想运行从星火的MLlib的CBOW实现,但我不明白的文件和他们的榜样如何做到这一点。这是他们页面上列出的例子。
来源:https://spark.apache.org/docs/2.1.0/mllib-feature-extraction.html#example
import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel}
val input = sc.textFile("data/mllib/sample_lda_data.txt").map(line => line.split(" ").toSeq)
val word2vec = new Word2Vec()
val model = word2vec.fit(input)
val synonyms = model.findSynonyms("1", 5)
for((synonym, cosineSimilarity) <- synonyms) {
println(s"$synonym $cosineSimilarity")
}
我的问题:
- 没有这个例子中使用哪两种模式?
- 您知道吗我可以在CBOW模式下运行模型?
在此先感谢!