-2

是否有任何可用于改善文档聚类结果的人工智能算法?用于聚类的算法可以是分层的或任何其他的。文档聚类

谢谢

回答

5

The Wikipedia article on document clustering包括链接从弗吉尼亚理工大学2007年的论文由尼古拉斯·安德鲁斯和爱德华·福克斯称为“Recent Developments in Document Clustering”。我不确定具体是什么你会被称为“人工智能算法”,但扫描论文的内容表明他们看向量空间模型,kmeans的扩展,生成算法,谱聚类,降维,基于相位的模型和对比分析。这是一个相当数学上密集的处理,但他们很小心地引用他们谈论的算法。

2

聚类确实是AI域中的一类问题。如果你想降低一级,你可以说它在机器学习领域。从这个意义上讲,AI不会改进文档聚类,但可以解决它! Dumbledad mentions一些基本的选择,但你每次的数据类型可能会更好地用不同的算法处理。这个问题有很多基于k-means的方法。在这种情况下需要仔细播种。球形k-均值(搜索Dhillon的论文)是一种简单而标准的方法。其他扩展名是k-synthetic prototypes

子空间聚类也是一个很好的尝试,一般来说,如果您想要比“文档聚类”文献检查“高维和稀疏数据空间中的聚类”更进一步。