如何应用主题建模？

我有5个主题的10000条推文。假设我知道基础事实（每条推文的实际主题），并将推文分为5个文档，其中每个文档包含特定主题的推文。然后，我将LDA应用于主题数量设置为5的5个文档。在这种情况下，我获得了很好的主题词。如何应用主题建模？

现在，如果我不知道推文的基本事实，我该如何制作输入文档，LDA仍然会给我描述5个主题的好主题词。

如果我通过随机选择推文样本创建输入文档，该怎么办？如果这最终导致输入文档的类似主题混合？ LDA是否应该像第一段那样找到好话题？

2015-04-04 KillBill

如果我理解正确，您的问题是关于短文本（推文）上的话题建模。一种方法是在训练LDA之前将推文结合成长伪文档。另一个是假定每个文档/ Tweet只有一个主题。

如果您不知道推文的地面实况标签，则可能需要尝试单篇文档主题模型（即unigrams的混合）。该模型的细节描述如下：

尹建华王建勇。基于Dirichlet多项混合模型的短文本聚类方法。在Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，第233-242页。

你可以找到我的这个模型和LDA的Java实现http://jldadmm.sourceforge.net/假设你知道地面实况标签，你也可以使用我的实现来比较文档集群任务中的这些主题模型。

如果您想评估主题的一致性（即评估主题词的好用程度），我建议您查看实现主题一致性计算的Palmetto工具包（https://github.com/AKSW/Palmetto）。

2015-07-10 15:24:07 NQD

回答