对于稀疏数据，训练LDA（潜在Dirichlet分配）并预测新文档的更快方法是什么？

关于训练LDA：对于稀疏数据，训练LDA（潜在Dirichlet分配）并预测新文档的更快方法是什么？

当我们试图实现LDA，我们需要构建一个词 - 文档矩阵，但该矩阵是稀疏的数据，因为我们的令牌字典是非常大的（有的数百万字），并且一个文档有一小组令牌（〜1000 - 10000个字），因此在文档 - 文档矩阵中，它具有很多0值，并且需要更长时间来训练模型。那么我们怎样才能更快？
关于预测新文件：

训练后，现在我们有一个新的LDA模型，所以我们可以用它来预测哪些主题一个新的文件。但在将新文档提供给我们的模型之前，我们需要将它转换为单词矢量，并且其矢量长度将是我们的字典长度（几百万字）。所以它会有很多零值，事实上，我们的成本时间会增加向量长度。

那么文档单词矩阵是实现LDA的有效方法吗？我们可以有其他更好的方法吗？我需要为我的项目推荐一些建议，所以请帮助

2017-09-26 voxter

由于数据稀疏，您当然应该使用稀疏向量而不是密集向量。

而不是存储所有的零，你只保留非零值。

一个典型的数据模型（见替代文献）是简单地使用元组列表（i，v），其中i是列索引，并且v是非零值。

2017-09-26 19:24:42

是的，我看到火花LDA回购相同的例子。现在我知道它的原因。谢谢 – voxter

回答