1
关于训练LDA:对于稀疏数据,训练LDA(潜在Dirichlet分配)并预测新文档的更快方法是什么?
当我们试图实现LDA,我们需要构建一个词 - 文档矩阵,但该矩阵是稀疏的数据,因为我们的令牌字典是非常大的(有的数百万字),并且一个文档有一小组令牌(〜1000 - 10000个字),因此在文档 - 文档矩阵中,它具有很多0值,并且需要更长时间来训练模型。那么我们怎样才能更快?
关于预测新文件:
训练后,现在我们有一个新的LDA模型,所以我们可以用它来预测哪些主题一个新的文件。但在将新文档提供给我们的模型之前,我们需要将它转换为单词矢量,并且其矢量长度将是我们的字典长度(几百万字)。所以它会有很多零值,事实上,我们的成本时间会增加向量长度。
那么文档单词矩阵是实现LDA的有效方法吗?我们可以有其他更好的方法吗?我需要为我的项目推荐一些建议,所以请帮助
是的,我看到火花LDA回购相同的例子。现在我知道它的原因。谢谢 – voxter