2017-06-13 52 views
-1

我已经得到了6个txt文件,其中填充了关于同一个域但是不同主题的问题(每个文件包含不同主题的问题),我的目标是聚集这些文件以便更好地查看相似性的科目。文本聚类

我已经删除了停用词,应用了词干化过程,应用了TF-IDF分数(我已经在数据框的形式下得到了它,结果是一个包含200个词(列)和6个主题的数据框行)),但我米奋力知道如何应用k均值或DBSCAN的聚类方法,并最终如何评价我的聚类方法的性能..

感谢提前的帮助..

+0

你在使用什么库?你试过什么了? –

+0

关于评估,由于您已将数据划分到主题中,因此只需将群集分配与原始主题(作为类别标签)进行比较即可。 –

+0

我使用stop_words中的get_stop_words作为停用词,re用于特殊字符提取,nltk.stem.snowball用于词干文档的FrenchStemmer以及手工制作的TF-IDF函数,用于获取不同文档中每个词的权重..我应用在文档之间的余弦相似度矩阵上的k平均值(但我不确定是否应该在其上或在TF-IDF矩阵上应用k平均值[在列和每行上的每个文档上有每个词))。 –

回答

0

随着6个科目,聚类不是统计学上有根据的。 k-means和DBSCAN都需要比这更大的样本量。

也许最有意义的方法是使用树状图。

+0

我已经计算出每个文档的cosine_similarity矩阵给其他人,如果我在其上应用树状图,它会是最合适的吗? –