2013-03-19 22 views

回答

10

一个话题与一组文档完全不同,毕竟话题不是由文档组成的。

但是,这两种技术确实有关。我认为主题建模是决定相似文档的可行方式,因此是文档聚类的一种可行方式。

在将每个文档表示为主题分布(实际上是一个向量)时,主题建模技术从出现的不同单词的数量(在语料库中)减少主题数量的特征维度。文档之间的相似性主题分布可以使用余弦度量和许多其他度量来计算,这些度量反映文档本身在它们所涵盖的主题/主题方面的相似性。基于这种量化的相似性度量,可以应用许多聚类算法来对文档进行分组。

从这个意义上说,我认为说主题建模是做文档聚类的技术是正确的。

1

聚类与分类之间的关系与主题建模与多标签分类之间的关系非常相似。

在单标签多类分类中,我们为每个文档分配一个标签。在集群中,我们只将每个文档放在一个组中。事实是,我们无法预先定义标签,因为我们定义标签。如果我们忽视这个事实,分组和标签本质上是相同的。

但是,在现实世界中,平面分类是不够的。文档通常与多个类别/类相关。因此我们利用多标签分类。现在,我们可以将主题建模看作多标签分类的无监督版本,因为我们可以将每个文档置于多个组/主题下。再次,我忽略了一个事实,即我们无法事先决定将哪些主题用作标签。

相关问题