我有一个训练有素的Word2vec模型,使用Python的Gensim库。我有一个标记化列表如下。该翻译大小是34,但我在这里只给数出34:Gensim:KeyError:“单词不在词汇表中”
b = ['let',
'know',
'buy',
'someth',
'featur',
'mashabl',
'might',
'earn',
'affili',
'commiss',
'fifti',
'year',
'ago',
'graduat',
'21yearold',
'dustin',
'hoffman',
'pull',
'asid',
'given',
'one',
'piec',
'unsolicit',
'advic',
'percent',
'buy']
型号
model = gensim.models.Word2Vec(b,min_count=1,size=32)
print(model)
### prints: Word2Vec(vocab=34, size=32, alpha=0.025) ####
如果我尝试在列表中做一个model['buy']
的话得到相似度得分,我得到的
KeyError: "word 'buy' not in vocabulary"
你们可以建议我我做错了什么,以及有什么方法来检查模型,可以进一步使用训练PCA或t-sne,以形象化形成话题的类似单词?谢谢。