4

我正在设计一个全文搜索引擎的体系结构。其中一个要点是在响应时间很短的大数据集之间处理查询。我可以弄清楚的一件事是将倒排索引拆分成分区。这有两种策略:基于期限的分区和基于文档的分区。但我真的想知道是否有其他方法可以在大型数据集中更快地进行反向搜索?如何使倒排索引搜索更快?

回答

8

video是Shay Banon的演讲,开发者是ElasticSearch的分布式全文搜索引擎。在视频中,他讨论了基于术语的分区和基于文档的分区的优缺点。

基本上,基于术语的分区会在进程/节点之间产生太多的网络带宽。很难很好地实施。基于文档的实现和生成结果极其简单。

此外,in this lecture by Jeffrey Dean他还解释了这些差异,并表示Google使用基于文档的分区。

这是发布您的搜索引擎的两种主要方式。我不知道其他的方式。无论如何,你可能需要搜索信息检索文献以获取有关该主题的新颖工作。