为字典生成字数

我有索引过程，它将mysql数据库中的文档放入solr。为字典生成字数

我想记录拼写更正每个单词的出现次数。

我明显可以将它们全部转储为一个纯文本文件，然后sort | uniq -c该文件，并保留所有字数高于N的所有单词 - 是要走的路，还是有一些更聪明的方法？

2011-10-25 taw

在SOLR中，您有多面。您可以尝试使用facet.field指向存储您感兴趣的文本数据的字段来执行facet搜索。您可以使用facet.mincount在特定频率级别上剪切输出列表。确保设置facet.zeroes = false以从结果频率列表中排除任何可能的零。

2011-10-25 13:42:39

回答