文本聚类

-1

我已经得到了6个txt文件，其中填充了关于同一个域但是不同主题的问题（每个文件包含不同主题的问题），我的目标是聚集这些文件以便更好地查看相似性的科目。文本聚类

我已经删除了停用词，应用了词干化过程，应用了TF-IDF分数（我已经在数据框的形式下得到了它，结果是一个包含200个词（列）和6个主题的数据框行）），但我米奋力知道如何应用k均值或DBSCAN的聚类方法，并最终如何评价我的聚类方法的性能..

感谢提前的帮助..

来源

2017-06-13 yikkin ying yang

你在使用什么库？你试过什么了？ –

关于评估，由于您已将数据划分到主题中，因此只需将群集分配与原始主题（作为类别标签）进行比较即可。 –

我使用stop_words中的get_stop_words作为停用词，re用于特殊字符提取，nltk.stem.snowball用于词干文档的FrenchStemmer以及手工制作的TF-IDF函数，用于获取不同文档中每个词的权重..我应用在文档之间的余弦相似度矩阵上的k平均值（但我不确定是否应该在其上或在TF-IDF矩阵上应用k平均值[在列和每行上的每个文档上有每个词））。 –

随着6个科目，聚类不是统计学上有根据的。 k-means和DBSCAN都需要比这更大的样本量。

也许最有意义的方法是使用树状图。

来源

2017-06-13 19:33:05

我已经计算出每个文档的cosine_similarity矩阵给其他人，如果我在其上应用树状图，它会是最合适的吗？ –

回答

相关问题