2011-10-25 56 views
1

我有索引过程,它将mysql数据库中的文档放入solr。为字典生成字数

我想记录拼写更正每个单词的出现次数。

我明显可以将它们全部转储为一个纯文本文件,然后sort | uniq -c该文件,并保留所有字数高于N的所有单词 - 是要走的路,还是有一些更聪明的方法?

回答

1

在SOLR中,您有多面。您可以尝试使用facet.field指向存储您感兴趣的文本数据的字段来执行facet搜索。您可以使用facet.mincount在特定频率级别上剪切输出列表。确保设置facet.zeroes = false以从结果频率列表中排除任何可能的零。