在我的项目中,我们正在尝试计算一组文档的文本相似性,这是我面临的两个问题。使用HBase获取数据以使用Mahout计算文本相似度
我不想重新计算我之前计算的文档的术语频率。例如我有10个文档,并且我计算了所有10个文档的术语频率和逆文档频率。然后我再获得2个文件。现在我不想计算已存在的10个文件的期限频率,但是想计算已经进入的新2的TF,然后对所有12个文件使用TF,并将12个文件的IDF计算为整个。 如何在不重新计算现有文档的TF的情况下计算所有文档的IDF?
文档数量可能会增加,这意味着使用内存方式(InMemoryBayesDatastore)可能会变得非常麻烦。我想要的是将所有文档的TF保存在HBASE表中,当新文档到达时,我计算新文档的TF,将它们保存在HBASE表中,然后使用此HBASE表获取所有TF计算IDF的文件。 如何使用HBase为Mahout的文本相似性提供数据,而不是从序列文件中提取数据?