inverted-index

2热度

1回答

在Lucene中，我想知道倒排索引中的访问次数。也许，Lucene的有倒排索引这样，猫狗 ----- D01 D02 D02 D01 D03 D03 ---- - ----- 如果我使用查询“cat dog”，Lucene会连续访问倒排索引。然后我询问top-2的结果，只有4次访问，Lucene将返回d01，d02。在这种情况下，我想知道访问时间（在本例中为“4”）。目前，我使用这样的L

1热度

2回答

反转索引评估顺序

我在某个地方读到，当你有一个倒排索引时（例如，你有一个brutus页面的排序列表，caesar的排序列表页面和calpurnia页面的排序列表），你做凯撒和布鲁特斯和卡尔彭尼亚，如果卡尔伯尼亚和布鲁托斯的页数少于凯撒的页数，那么你应该做凯撒和（粗野和卡尔尼亚），这意味着你应该评估后者和第一。一般来说，无论何时你有一系列的AND，你总是首先评估具有最低页数的对。这背后的推理是什么？为什么这是有效的？

3热度

1回答

什么是实时搜索引擎的算法？

倒转索引被设计为快速搜索，但不容易更新。就我所知，增量索引用于更新倒排索引数据。那么实时搜索的算法或主要概念是什么？他们是如何做到的？

2热度

1回答

如何为基于内容的图像检索的矢量/直方图集合创建索引

我目前正在撰写一个基于视觉词语的图像检索系统的包，它与文本检索中的矢量空间模型类似。在这个框架下，每个图像都由一个矢量表示（有时也称为文献中的直方图）。基本上，向量中的每个数字都计算每个“视觉词”在该图像中出现的次数。如果2幅图像具有“接近”在一起的矢量，这意味着它们具有许多共同的图像特征，因此是相似的。我基本上试图为一组这样的向量创建倒排文件索引。我想要一些可以从数千个（在试用阶段）到数十万甚

0热度

1回答

需要倒排索引的文件格式

我一直在努力倒排索引，索引文档集合，存储每个词的信息，并在发布文件（文档ID，位置等）中存储其引用。目前我以.txt文件格式存储它，它需要为每个与每个有关.txt文件的查询进行字符串匹配，这需要花费更多的时间，而且也更加复杂。现在我想将这些信息存储在链接列表样式数据结构的文件中。所以这是可能的这种类型的情况....（也是我使用PHP语言进行索引）。任何帮助将不胜感激，谢谢。

7热度

1回答

创建一个非常大的哈希数据库的提示

问题：有什么解决方案或技巧，你将不得不处理一个非常大（数TB）的数据库索引在强冗余高冗余？某种倒立的存储？ Postgres有什么可以做的吗？如果需要，我准备推出自己的存储空间。（提示：必须是开源的，没有Java，必须在Linux上运行，必须是基于磁盘的，C/C++/Python的首选）细节：我需要建立一个非常大型数据库，其中每个记录都有：一些任意元数据（一些文本字段）包括一些主键

2热度

2回答

倒排列表联盟

给k排序倒排列表，我想要一个有效的算法来获得这些k列表的联合？每个反转列表是内存中的只读数组，每个列表都包含按排序顺序的整数。结果将被保存在足够大的预定义数组中。有什么算法比k路合并更好吗？

3热度

2回答

Python倒排索引效率

我在写一些Python代码来实现我最近学习的一些概念，这些概念与倒排索引/发布列表有关。我对Python很陌生，在某些情况下对于它的效率有些麻烦。理论上，产生一组文档的倒排索引d，每一个独特的ID doc_id应包括：解析/在d执行每个文档的词法分析卸下停用词，执行所产生等创建所有(word,doc_id)双列表进行排序，列表凝重复到{word:[set_of_all_doc_ids]

1热度

1回答

从发布列表中删除条目Lucene 4.0

我需要从发布列表中删除条目。如何在Lucene 4.0中做到这一点？我需要这样做来测试不同的修剪算法。在此先感谢 ZP

8热度

3回答

使用cPickle序列化一个大字典导致MemoryError

我正在为文档集合上的搜索引擎写一个倒排索引。现在，我将索引存储为字典的字典。也就是说，每个关键字映射到docIDs->发生位置的字典。的数据模型看起来类似： {字：{DOC_NAME：[location_list]}} 在内存中创建索引工作正常，但是当我尝试序列化到磁盘，我打的MemoryError。这是我的代码： # Write the index out to disk serialize