2017-09-26 23 views
1

我的理解是,word2vec可以在两种模式下运行:如何在CBOW模式下运行MLlib的word2vec?

  • 连续袋的字(CBOW)(词的顺序并不重要)
  • 连续跳过克(字事项顺序)

我想运行从星火的MLlib的CBOW实现,但我不明白的文件和他们的榜样如何做到这一点。这是他们页面上列出的例子。

来源:https://spark.apache.org/docs/2.1.0/mllib-feature-extraction.html#example

import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} 

val input = sc.textFile("data/mllib/sample_lda_data.txt").map(line => line.split(" ").toSeq) 

val word2vec = new Word2Vec() 

val model = word2vec.fit(input) 

val synonyms = model.findSynonyms("1", 5) 

for((synonym, cosineSimilarity) <- synonyms) { 
    println(s"$synonym $cosineSimilarity") 
} 

我的问题:

  • 没有这个例子中使用哪两种模式?
  • 您知道吗我可以在CBOW模式下运行模型?

在此先感谢!

回答