1
我正在Python中对一组文本数据执行文本聚类。基本上,我使用TF IDF得分,然后应用结果矩阵为k均值算法就是这样:Python中的文本聚类后的完全相同的群集
vect = TfidfVectorizer(min_df=100,stop_words=sw)
dtm = vect.fit_transform(df)
l=vect.get_feature_names()
k = 15
model = MiniBatchKMeans(n_clusters=k)
model.fit(dtm)
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vect.get_feature_names()
for i in range(k):
print("Cluster %d:" % i, end='')
for ind in order_centroids[i, :100]:
print(' %s' % l[ind], end='')
print()
然后执行以下后,我得到15个相同的群集(与它几乎完全一致字计算)。我也尝试使用LSA方法进行归一化,但它几乎相同。
我在做什么错,怎么修复?
你可以上传数据?你也使用什么版本的sklearn? – sera