我已阅读LDA,并了解在输入文档集合时如何生成主题的数学。LDA主题建模 - 培训和测试
参考文献说,LDA是一种算法,只要给出一个文档集合(不需要监督),就可以发现该集合中的文档所表达的“主题”。因此,通过使用LDA算法和吉布斯采样器(或变分贝叶斯),我可以输入一组文档和输出,我可以得到主题。每个主题都是一组具有分配概率的术语。
我不明白的是,如果上述说法属实,那么为什么很多主题建模教程都会谈论将数据集分为训练集和测试集?
任何人都可以向我解释LDA如何用于训练模型的步骤(基本概念),然后可以使用它来分析另一个测试数据集?
一个很好的问题! – KillBill