主题建模标识文档集合中主题的分布,可有效识别集合中的集群。所以说主题建模是一种文档聚类的技术是正确的吗?主题建模和文档聚类之间的关系是什么?
8
A
回答
10
一个话题与一组文档完全不同,毕竟话题不是由文档组成的。
但是,这两种技术确实有关。我认为主题建模是决定相似文档的可行方式,因此是文档聚类的一种可行方式。
在将每个文档表示为主题分布(实际上是一个向量)时,主题建模技术从出现的不同单词的数量(在语料库中)减少主题数量的特征维度。文档之间的相似性主题分布可以使用余弦度量和许多其他度量来计算,这些度量反映文档本身在它们所涵盖的主题/主题方面的相似性。基于这种量化的相似性度量,可以应用许多聚类算法来对文档进行分组。
从这个意义上说,我认为说主题建模是做文档聚类的技术是正确的。
1
聚类与分类之间的关系与主题建模与多标签分类之间的关系非常相似。
在单标签多类分类中,我们为每个文档分配一个标签。在集群中,我们只将每个文档放在一个组中。事实是,我们无法预先定义标签,因为我们定义标签。如果我们忽视这个事实,分组和标签本质上是相同的。
但是,在现实世界中,平面分类是不够的。文档通常与多个类别/类相关。因此我们利用多标签分类。现在,我们可以将主题建模看作多标签分类的无监督版本,因为我们可以将每个文档置于多个组/主题下。再次,我忽略了一个事实,即我们无法事先决定将哪些主题用作标签。
相关问题
- 1. 什么是系统类和PrintStream类之间的关系
- 2. 类“类型”和特定类型之间的关系是什么?
- 3. JSDoc:模块和名称空间之间的关系是什么
- 4. 什么是UI动画和主要runloop之间的关系
- 5. C++和Ruby之间的关系和依赖关系是什么?
- 6. Eclipse .classpath文件和build.xml文件之间的关系是什么?
- 7. Blaze视图和模板之间的关系是什么?
- 8. 在关系数据建模和文档数据建模之间挣扎
- 9. 枚举和类之间的关系是什么?
- 10. 拆箱类型和严格性之间的关系是什么?
- 11. java中的包和jar文件之间的关系是什么?
- 12. ruby类和具有相同名称的模块之间的关系是什么?
- 13. .h和.m文件之间的关系是什么?
- 14. 用于分类和聚类的特征之间的关系
- 15. Rails建模问题 - 关系和主键
- 16. 各种Android OpenGL相关类之间的关系是什么?
- 17. 主模块和相关模块之间的关系
- 18. SpriteKit模板中的GameScene.swift和GameScene.sks文件之间的关系是什么
- 19. dup()和close()系统调用之间的关系是什么?
- 20. 什么是在Drupal 7的主题增值经销商之间的关系?
- 21. using关键字和IDisposable接口之间的关系是什么?
- 22. JLS,Java和相关技术之间的关系是什么?
- 23. 如何建模两个聚合根之间的关系
- 24. 负载和响应时间之间的关系是什么?
- 25. 什么是模型之间的关联?
- 26. 这些模型之间应该建立什么样的关系?
- 27. SIGTSTP和SIGCHLD之间有什么关系
- 28. PyTorch和Torch之间有什么关系?
- 29. IRimTable和PersistenceStore之间有什么关系?
- 30. foreach和IEnumerable之间有什么关系?