information-retrieval

    -1热度

    1回答

    我有以下格式的文档术语列表(在txt文件中)。文档总数为1400.例如: doc 1:你好,我,你好,费用,每天(这里doc 1是一个文本文件) doc 2:费用,你好(这里doc 2是一个文本文件) ......... 现在我该如何在java中实现TF? TF是多少计时器术语出现在文档中的术语/总数 到目前为止的代码,它计算的一个术语多少次出现在文档中 public class termdoc

    -1热度

    2回答

    我写了一个程序来做信息检索和提取。用户在搜索栏中输入查询,程序就可以显示相关的txt结果,如相应的句子和文章组成的句子。 我做了一些研究如何评估结果。我可能需要计算精度,召回,AP,MAP .... 但是,我是新来的。如何计算结果。由于我的数据集没有标记,我没有做分类。我使用的数据集是BBC新闻的文章。有200篇文章。我把它命名为001.txt,002.txt ...... 200.txt 这将是

    0热度

    1回答

    我想在java中构建倒排索引。我有1400个文本文件的cran数据。 我能够计算每个术语/单词的频率。我已经能够返回一个单词出现在整个集合中的次数,但我一直无法返回该单词出现在哪个文档中。这是迄今为止的代码: 我希望输出以下形式 TERM1:DOC1:2,DOC2:3 TERM2:DOC1:3,DOC4:1 ...............等 这里术语是一个字在一个doc文件和文档1:2表示TERM

    0热度

    1回答

    我想在java中构建一个倒排索引。我有1400个文本文件的cran数据。我能够计算每个术语/单词的频率。我已经能够返回一个单词出现在整个集合中的次数,但是我没有能够创建一个t = term,d = doc,f = frequency的三元组(t,d,f)。这是我的代码至今: 我想在下面的表格输出 term1: doc1:2, term2: doc2:3, term1: doc3:1 这里术

    0热度

    1回答

    我已经构建了倒排索引(wordTodocumentQueryMap)为files.It收集它(JAVA)的数量包含每个appeear 如Word文件没有和频率这个: experiment 1:1 17:1 30:1 39:1 52:1 109:2 ************* empirical 1:1 38:3 58:1 109:1 110:1 ************* flow

    0热度

    1回答

    所以我不知道如何处理这种情况。它几乎适用于许多其他损坏的链接,但不是这一个: import datetime import praw import re import urllib import requests from bs4 import BeautifulSoup sub = 'dog' imgurUrlPattern = re.compile(r'(http://i

    0热度

    1回答

    请给我一些提示,网站,书籍或研究论文,以解释如何计算URL停留时间。 万一您不知道什么是停留时间:停留时间表示用户点击搜索引擎结果页面上的链接后浏览文档的时间。 在此先感谢

    1热度

    2回答

    我已经设法将字符串切成一个单词。但是当程序运行时,新的结果可以在浏览器中查看。但是这些结果不能改变原始文本文件中字符串的条件。我希望原始文本文件的内容相同以在浏览器中编译结果。那么如何雅如何将单词的结果存储到文本文件?在这种情况下存储在带有.txt扩展名的记事本中。 为了减少我用下面的PHP代码的文本:从浏览器 $width = strlen($openfile)/28000; $wrapped

    0热度

    1回答

    以下是Distant Supervision for Relation Extraction using Ontology Class Hierarchy-Based Features的文章的距离监督的措施。例如 我已经符号化的句子: 她最有名的寺庙,帕台农神庙,在雅典卫城从标题 的名字,我也有从词汇特征这句话,你可以在表中看到: 的问题是如何CR eate从这张表中得到的特征向量,可以传递给Lo

    0热度

    2回答

    让我们假设有2个包含相同术语频率(TF)的文档,其逆文档频率(IDF)值也相同。 例如: - Document1:- tf-idf=0.12 Document2:- tf-idf=0.12 那么,如何检索和使用相同的tf-idf值排列这些文件? 访问此链接,这取决于你想在你的应用程序要实现什么更多信息http://www.tfidf.com/