2016-06-20 24 views
1

我使用Gensim来训练大小为4的句子,并且在训练数据集中有1192个独特词汇。模型len(model.vocab)中的单词数量是141,但这没有意义。有什么理由看到这个?我怎样才能改变他们的模型,为训练中的每一个单词都提供一个关键字? 模型= Word2Vec(窗口,min_count = 1)gensim中的词汇数量远远低于训练数据中的词汇数量

回答

0

它真的来不及回答,但也许这可以帮助别人,有在gensim.models.word2vec默认参数名为“min_count”,默认值是5,它跳过数据集中不常见的单词。如果你想让所有的词汇都在那里,将它设置为1。