2011-07-14 47 views
1

我正在使用Apache Mahout矢量化和集群体面大小的文档集(〜500k)。在通过项目网站和Mahout in Action书籍中的示例中,我已经看到参数seq2sparse使用了几次,但我不确定它期望的是什么样的值。是否有任何种类的“起始地”或估算此参数体面值的方法?使用Apache Mahout对文档进行矢量化 - MinLLR参数

回答

2

LLR值没有正常化,所以我不认为有一个很好的答案。答案将取决于你想要修剪多少。 LLR值将随着语料库的大小(以及n-gram的数量)线性增加。默认值1.0是合理的,我只是建议您通过实验找到正确的值,然后根据输入的大小线性地将其缩放到其他输入。