information-retrieval

    -1热度

    1回答

    我是新搜索引擎,我正在使用Apache Lucene和Terrier,我发现了ElasticSearch。 有没有人能解释我可以用它做什么样的事情? 它与Lucene的检索功能有什么不同?

    0热度

    1回答

    假设我有一个服务,并在多个主机上运行elasticsearch。如果我确保每个主机都包含完整的elasticsearch索引(通过使replicas> = numberOfHosts-1),是否有可能确保特定主机上的服务调用仅在同一主机的索引中进行搜索(即没有弹性搜索调用跨主机)?

    1热度

    1回答

    我有一个关于文本处理任务,我不知道如何从不同的表中某些列合并成一个表 因此,这里的情况: 我有一个名为list与id_doc表,title列 然后我创建一个名为term_list的新表,其中包含结果字词列表,当我对list标题进行文本处理时。 term_list表具有id_term,term,df和idf列。最后,我想有一台名为term_freq具有tf列id,id_term,id_doc,和no

    0热度

    2回答

    我有一些文件。例如1000个文件。每个文件都有一些单词。 例如 文件1:你好,我是来自地球 文档2:我是来自火星各位网友如何 文档2:地球火星太阳 输出应该是这样的 [你好:doc1-1,doc2-2 doc3-0] [我:doc1-1,doc2-1,doc3-0] ..... 喜欢它需要存储单个词及其与文件相关的频率。 我想它需要映射。但我不知道如何做映射? 任何帮助将不胜感激

    1热度

    1回答

    我真的想知道,我们如何验证或评估BM25公式中b和k1的值?换句话说,最“科学”的评估是什么? 是否有任何研究论文可以参考,以了解这些评估类型是如何完成的?

    0热度

    1回答

    结合成对文档相似度得分以获得某个文档与文档集合的总体相似度得分的方法是什么? 如何计算对一个文档集合文档相似性? - ResearchGate。可从:https://www.researchgate.net/post/How_to_compute_document_similarity_against_a_document_collection [2016年8月22日访问]。处理这个的

    2热度

    1回答

    我很想找到一个数据集,如“英语相关性判断文件列表”: http://trec.nist.gov/data/qrels_eng 此数据集包含一个标记,对查询和文件。 然而,它依赖于非自由文集,名为“数据 - 英文文档”: http://trec.nist.gov/data/docs_eng.html 你知道任何免费的数据集(S)类似的这一个? 旁注:该数据集将用于建立基于神经网络的信息检索系统的研究

    0热度

    1回答

    我无法将控制器的值传递给我的下一个控制器。 我用下面的语法: 在BillController: return redirect('pdf')->with($sid); 在路线: Route::get('pdf', '[email protected]'); 在我PdfController: class PdfController extends Controller { pu

    1热度

    1回答

    我正在尝试编写比代码读取全部cran字段的Java代码(Information Retrial中的热门话题),以便进行标记,计数总标记,找到50个常用词并删除预先定义的停用词。 它的工作原理除了StopWordsRemoval方法(代码中的最后一个), 它不会根据需要更改输出,此方法之前/之后的输出是相同的! 你能帮我弄清楚是什么问题吗? 它是在Java中,我的第一个代码:( import jav

    1热度

    2回答

    我有两个组,“in”和“out”以及可以在组中分组的项目类别。例如,我可以拥有99%“in”和1%“out”的项目类别A,以及98%“in”和2%“out”的项目B. 对于这些项目中的每一个,我实际上都有进/出的计数。例如,A可能有99个项目和1个项目,而B可能有196个项目在和4个出局。 我想根据“in”的百分比对这些项目进行排名,但我也想优先考虑具有较大整体人口的项目。这是因为我想重点关注与“