1
  1. 关于训练LDA对于稀疏数据,训练LDA(潜在Dirichlet分配)并预测新文档的更快方法是什么?

    当我们试图实现LDA,我们需要构建一个词 - 文档矩阵,但该矩阵是稀疏的数据,因为我们的令牌字典是非常大的(有的数百万字),并且一个文档有一小组令牌(〜1000 - 10000个字),因此在文档 - 文档矩阵中,它具有很多0值,并且需要更长时间来训练模型。那么我们怎样才能更快?

  2. 关于预测新文件

    训练后,现在我们有一个新的LDA模型,所以我们可以用它来预测哪些主题一个新的文件。但在将新文档提供给我们的模型之前,我们需要将它转换为单词矢量,并且其矢量长度将是我们的字典长度(几百万字)。所以它会有很多零值,事实上,我们的成本时间会增加向量长度。

那么文档单词矩阵是实现LDA的有效方法吗?我们可以有其他更好的方法吗?我需要为我的项目推荐一些建议,所以请帮助

回答

1

由于数据稀疏,您当然应该使用稀疏向量而不是密集向量。

而不是存储所有的零,你只保留非零值。

一个典型的数据模型(见替代文献)是简单地使用元组列表(i,v),其中i是列索引,并且v是非零值。

+0

是的,我看到火花LDA回购相同的例子。现在我知道它的原因。谢谢 – voxter

相关问题