2014-03-07 50 views
0

我有一个300GB的大小索引约400万文本文件。这是我试图实现的:Lucene附近的单词建议

步骤1:搜索单词或短语。假设找到1000个文件。

步骤2:识别搜索结果中最常见的单词和短语,即1000个文档。 “最常用的单词和短语”应与步骤1中搜索的单词或短语的距离为X.X距离可以是从1个单词距离到1000个单词距离的任何数字。

第3步。使用找到的“最常见单词和短语”再次搜索400万份文档中的文档。

我在Luncene上看到关于自动建议和ngram搜索的问题。但仍然不知道如何做到最佳,尤其是我应该使用特殊分析仪,特殊查询还是两者兼而有之?

回答

0

我已经使用了一种特殊的预分析器(索引每个n-gram作为一个短语),效果很好(请参阅RELMA LOINC医学术语搜索/映射程序)。