我正在使用doc2vec转换我的追随者在向量表示中的前100个推文(称为v1 ..... v100)。之后,我使用向量表示来完成K均值聚类。如何在使用Doc2vec后解析群集结果?
model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)
我可以看到集群0被某些值(比如v10,v12,v23,...)所支配。我的问题是这些v10,v12 ...等代表什么。我可以推断出这些具体的列集合文档的特定关键字。
不,只有少数算法如k-means会将所有点分配给k个簇。很多现代算法都没有。即使使用k-means,这些集群也有一些意义。通过word2vec映射回原始数据空间并不容易。 –
我想要使用他们的推文内容分割类似的追随者。有几种方法可以找到数据中最佳的群集数量。所以我不同意集群是完全没用的。我只是试验看doc2vec是否可以做出更好的分割,当然它应该对用户感兴趣的主题进行某种分类。 –