2017-07-12 46 views
1

我们知道,使用Lucene或着名搜索引擎Google的elasticsearch将保持索引文档中单词的偏移距离,以获得更好的结果。上述两种软件都在上执行索引和搜索,其数据量非常大()。什么是特殊的索引(或数据结构)或算法,以实现内部的高效和快速?那么成本(时间和空间)呢?是否有网页或文档解释Google或elasticsearch(lucene)使用的偏移距离算法?下面是我想要创建自己的图片。是否有索引结构(数据结构)或算法可以高效快速地执行邻近搜索?

enter image description here

+0

你应该尝试['match_phrase' query](https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-match-query-phrase.html),它几乎可以实现这些需求。使用2的斜率以确保匹配不同的订单。 – Val

+0

我很感谢你的回答,但是我想要做的不是使用elasticsearch来做出一些事情。我想要做的唯一事情就是手动创建问题中提到的数据结构(索引结构)或算法(它可以为大量文档有效地工作)。 –

+0

如果你能告诉我有关它的内部结构或文件的位置,我将不胜感激。 –

回答