0
我在EC2上运行Mahout的LDA(使用Whirr)。您在实践中能够使用的最大词汇量是多少?你能分享一些Hadoop/EC2设置吗?Mahout LDA:实际上可以使用的最大字典大小是多少?
理想情况下,我想在3M文档(1B令牌)的语料库上运行LDA,并使用20M令牌字典。
我已经尝试过其他的map-reduce LDA(Hadoop的LDA,LDA先生)的实现,并没有设法扩展它很远(请证明我错了!)
我在EC2上运行Mahout的LDA(使用Whirr)。您在实践中能够使用的最大词汇量是多少?你能分享一些Hadoop/EC2设置吗?Mahout LDA:实际上可以使用的最大字典大小是多少?
理想情况下,我想在3M文档(1B令牌)的语料库上运行LDA,并使用20M令牌字典。
我已经尝试过其他的map-reduce LDA(Hadoop的LDA,LDA先生)的实现,并没有设法扩展它很远(请证明我错了!)
对这些问题的最佳场所是Mahout邮件列表[1]。我自己并没有尝试过LDA实现,但它是由twitter推动的,所以我的猜测是它应该适合你的规模需求。
我确定邮件列表上的人可以给你更好的答案。
[1] https://cwiki.apache.org/confluence/display/MAHOUT/Mailing+Lists,+IRC+and+Archives