Lucene附近的单词建议

我有一个300GB的大小索引约400万文本文件。这是我试图实现的：Lucene附近的单词建议

步骤1：搜索单词或短语。假设找到1000个文件。

步骤2：识别搜索结果中最常见的单词和短语，即1000个文档。 “最常用的单词和短语”应与步骤1中搜索的单词或短语的距离为X.X距离可以是从1个单词距离到1000个单词距离的任何数字。

第3步。使用找到的“最常见单词和短语”再次搜索400万份文档中的文档。

我在Luncene上看到关于自动建议和ngram搜索的问题。但仍然不知道如何做到最佳，尤其是我应该使用特殊分析仪，特殊查询还是两者兼而有之？

我已经使用了一种特殊的预分析器（索引每个n-gram作为一个短语），效果很好（请参阅RELMA LOINC医学术语搜索/映射程序）。

2014-03-21 22:17:19

回答