information-retrieval

    0热度

    1回答

    我正在创建一个电子通信产品价格比较工具(在Python中),它有点类似于camelcamelcamel.com,既有趣又有利。当我想从我使用搜索词从各种网站收集的列表中匹配相同的项目时,我正面临困难。我正在使用余弦相似度和想用Levenshtein的产品匹配算法,使各个项目的标题相互匹配以找到相同的项目。 例如,我有项目的下列项目和它们的价格值, { product_0: {

    0热度

    1回答

    你好,我有这种格式的倒排索引格式的文本是: 长期文档1,书2 poids1 poids2 我想减少他的大小我haave降低名字文档例如 文件1个将成为1 ..也为重例如2.5565465454重量将是2.55像这样examle在java中的 BigDecimal bd = new BigDecimal(w); bd = bd.setScale(2, RoundingMode.HALF_UP);

    3热度

    3回答

    这是一个相当广泛的问题,我没有寻找具体的实现(好吧,如果某件事情,解决了这个问题,已经存在,将是可怕的)。如果任何人都可以告诉我如何获取请求的信息,那将是完美的。 让我来描述一个例子的问题。我有一个大学的名字(例如牛津大学)。我要过滤推特,以找到提到这所大学的蠢蛋。显然,他们中的大多数不会直接包含“牛津大学”这个词,而是可能会使用像“Oxon”,“Oxf”或“牛津”这样的词。 我的问题是如何自动找

    3热度

    1回答

    我已经创建了文本语义搜索引擎。但是,我无法找到已标记的数据集,以便我可以评估系统的信息检索。 是否有任何公开的可用文件(文本)被标记。因为我需要文本文档来评估信息检索结果。 (召回,精度,F1值...) 谢谢。

    0热度

    1回答

    我使用Lucene 5.3.1,并且我已经编制了一些文档的索引,现在我试图找到一个内置函数来计算所有标记计数(跨集合/ index) 我知道我可以迭代所有文档并对其长度进行求和。但是由于我的复杂算法增加了运行时间,我试图避免这种方法。我认为lucene可能有一个API ... 毕竟,我GOOGLE了这个功能(或任何类似的功能),但我找不到任何有用的链接。 现在的问题是:是否有任何内置函数返回集合中

    -2热度

    2回答

    请帮我解决!我的问题是 - 当一个查询“q”被解雇了一个有100个相关文件的信息检索系统w.r.t.查询“q”,系统在全部检索到的68个文件中全部收集了600个文件。在68份检索到的文件中,有40份文件被认为是相关的。 什么是精度&召回系统w.r.t.t.给定的查询“q”。

    0热度

    1回答

    您需要编写一个反转程序来完成索引构造。该程序的输入是文档集合。输出包括两个文件 - 一个字典文件和一个发布列表文件。字典中的每个条目都应包含一个术语,其文档频率和其发布列表的链接。您应该使用适当的数据结构来构建字典(例如哈希或搜索树或其他)。该结构应该易于随机查找和插入新术语。所有的术语应按字母顺序排序。每个学期的过帐清单应包括该期限发生的所有文档的过帐(按文档ID的顺序),并且过帐中保存的信息包

    1热度

    2回答

    我对如何评估信息的问题召回了一些思路和方向检索结果是好还是不好,如计算 相关文件级别,召回,精度,AP,MAP ..... 当前,一旦用户输入查询,系统能够从数据库中检索文档。问题是我不知道如何做评估。 我得到了一些公共数据集,如“克兰菲尔德集” dataset link 它包含 1.document 2.query 3.relevance assesments DOCS QRYS SIZE

    0热度

    1回答

    我基于查询 - 文档对之间的文本相似性(余弦相似度)创建了两阶段排序系统。现在我需要验证我的排名系统,检索的适合排名的项目是否正确与用户有关,我应该选择哪种方法。我阅读了Pointwise/Pairwise/Listwise方法来验证排名,但是对于排名系统的手动评估,这会更有帮助。如果有人能够启发更好的排名评估策略,那对我来说会很有帮助。谢谢

    0热度

    1回答

    为了评估我的图像检索系统,我正在阅读很多关于Precision-Recall曲线的内容。特别是,我正在阅读关于VLFeat中的特征提取器的文章this以及关于精确调用的wikipedia page。 我知道这条曲线对评估我们的系统性能w.r.t很有用。检索的元素的数量。所以我们反复计算检索顶部元素的精度 - 回忆,然后回到顶部2,顶部3等...但我的问题是:什么时候我们停止? 我的直觉是:当我们的