inverted-index

    2热度

    1回答

    在Lucene中,我想知道倒排索引中的访问次数。 也许,Lucene的有倒排索引这样, 猫狗 ----- D01 D02 D02 D01 D03 D03 ---- - ----- 如果我使用查询“cat dog”,Lucene会连续访问倒排索引。 然后我询问top-2的结果,只有4次访问,Lucene将返回d01,d02。 在这种情况下,我想知道访问时间(在本例中为“4”)。 目前,我使用这样的L

    1热度

    2回答

    我在某个地方读到,当你有一个倒排索引时(例如,你有一个brutus页面的排序列表,caesar的排序列表页面和calpurnia页面的排序列表),你做凯撒和布鲁特斯和卡尔彭尼亚,如果卡尔伯尼亚和布鲁托斯的页数少于凯撒的页数,那么你应该做凯撒和(粗野和卡尔尼亚),这意味着你应该评估后者和第一。一般来说,无论何时你有一系列的AND,你总是首先评估具有最低页数的对。这背后的推理是什么?为什么这是有效的?

    3热度

    1回答

    倒转索引被设计为快速搜索,但不容易更新。就我所知,增量索引用于更新倒排索引数据。 那么实时搜索的算法或主要概念是什么?他们是如何做到的?

    2热度

    1回答

    我目前正在撰写一个基于视觉词语的图像检索系统的包,它与文本检索中的矢量空间模型类似。在这个框架下,每个图像都由一个矢量表示(有时也称为文献中的直方图)。基本上,向量中的每个数字都计算每个“视觉词”在该图像中出现的次数。如果2幅图像具有“接近”在一起的矢量,这意味着它们具有许多共同的图像特征,因此是相似的。 我基本上试图为一组这样的向量创建倒排文件索引。我想要一些可以从数千个(在试用阶段)到数十万甚

    0热度

    1回答

    我一直在努力倒排索引,索引文档集合,存储每个词的信息,并在发布文件(文档ID,位置等)中存储其引用。 目前我以.txt文件格式存储它,它需要为每个与每个有关.txt文件的查询进行字符串匹配,这需要花费更多的时间,而且也更加复杂。 现在我想将这些信息存储在链接列表样式数据结构的文件中。所以这是可能的这种类型的情况....(也是我使用PHP语言进行索引)。 任何帮助将不胜感激,谢谢。

    7热度

    1回答

    问题: 有什么解决方案或技巧,你将不得不处理一个非常大(数TB)的数据库索引在强冗余高冗余? 某种倒立的存储? Postgres有什么可以做的吗? 如果需要,我准备推出自己的存储空间。 (提示:必须是开源的,没有Java,必须在Linux上运行,必须是基于磁盘的,C/C++/Python的首选) 细节: 我需要建立一个非常大型数据库,其中每个记录都有: 一些任意元数据(一些文本 字段)包括一些主键

    2热度

    2回答

    给k排序倒排列表,我想要一个有效的算法来获得这些k列表的联合? 每个反转列表是内存中的只读数组,每个列表都包含按排序顺序的整数。 结果将被保存在足够大的预定义数组中。有什么算法比k路合并更好吗?

    3热度

    2回答

    我在写一些Python代码来实现我最近学习的一些概念,这些概念与倒排索引/发布列表有关。我对Python很陌生,在某些情况下对于它的效率有些麻烦。 理论上,产生一组文档的倒排索引d,每一个独特的ID doc_id应包括: 解析/在d执行每个文档的词法分析 卸下停用词,执行所产生等 创建所有(word,doc_id)双 列表进行排序,列表 凝重复到{word:[set_of_all_doc_ids]

    1热度

    1回答

    我需要从发布列表中删除条目。如何在Lucene 4.0中做到这一点?我需要这样做来测试不同的修剪算法。 在此先感谢 ZP

    8热度

    3回答

    我正在为文档集合上的搜索引擎写一个倒排索引。现在,我将索引存储为字典的字典。也就是说,每个关键字映射到docIDs->发生位置的字典。 的数据模型看起来类似: {字:{DOC_NAME:[location_list]}} 在内存中创建索引工作正常,但是当我尝试序列化到磁盘,我打的MemoryError。这是我的代码: # Write the index out to disk serialize