2015-04-04 25 views
0

我有5个主题的10000条推文。假设我知道基础事实(每条推文的实际主题),并将推文分为5个文档,其中每个文档包含特定主题的推文。然后,我将LDA应用于主题数量设置为5的5个文档。在这种情况下,我获得了很好的主题词。如何应用主题建模?

现在,如果我不知道推文的基本事实,我该如何制作输入文档,LDA仍然会给我描述5个主题的好主题词。

如果我通过随机选择推文样本创建输入文档,该怎么办?如果这最终导致输入文档的类似主题混合? LDA是否应该像第一段那样找到好话题?

回答

2

如果我理解正确,您的问题是关于短文本(推文)上的话题建模。一种方法是在训练LDA之前将推文结合成长伪文档。另一个是假定每个文档/ Tweet只有一个主题。

如果您不知道推文的地面实况标签,则可能需要尝试单篇文档主题模型(即unigrams的混合)。该模型的细节描述如下:

尹建华王建勇。基于Dirichlet多项混合模型的短文本聚类方法。在Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,第233-242页。

你可以找到我的这个模型和LDA的Java实现http://jldadmm.sourceforge.net/假设你知道地面实况标签,你也可以使用我的实现来比较文档集群任务中的这些主题模型。

如果您想评估主题的一致性(即评估主题词的好用程度),我建议您查看实现主题一致性计算的Palmetto工具包(https://github.com/AKSW/Palmetto)。