information-retrieval

    3热度

    2回答

    在this问题我询问了有关精度 - 召回曲线的说明。 特别是,我问我们是否必须考虑固定数量的排名来绘制曲线,或者我们可以合理地选择自己。根据answer,第二个是正确的。 但是现在我对平均精度(AP)值有一个很大的怀疑:AP用于从数值上估计给定某个查询的算法有多好。平均平均精度(MAP)是多个查询的平均精度。 我的疑问是:如果AP根据我们检索的对象数量而变化,那么我们可以调整这个参数以使我们更有优

    0热度

    1回答

    我试着为查询和文档计算TF-IDF,并使用COS距离对结果进行排名并得到Top50类似文档。 同样,我计算BM25得分并将最高BM25得分评为No.1,并获得前50个相似文件。 但是,对于TF-IDF和BM25,结果都不好。 (数据集是标签测试数据集的大小为1400的文档。): For example in the testing dataset judgment the queryID=1

    0热度

    1回答

    我曾研究过分类器,特别是多分类器。我的问题是,当我使用精度和回忆来评估分类器时,我不明白的意思是假阳性和假阴性在多分类器分类器评估中。 例如,当我对一个文档(它的真实类别是C-1)进行分类时,分类器将它归类为C-2。那么,我应该增加C-2的假阳性并增加C-1的假阴性吗? (因为真正的答案是C-1。)

    1热度

    2回答

    我想使用木槌作为培训主题。我的数据在一个文件中,所以我研究了如何构建这个One Single文件的木槌文档。 在Mallet website,每行部分一个文件,一个实例下,有人说: [URL] [语言] [页的文字...] 在这种情况下,每行的第一个标记 (空格分隔,带有可选逗号)将成为实例名称,第二个标记将成为标签,并且该行上的所有其他 文本将被解释为一系列的单词标记。 所以根据上述报价,我创造

    1热度

    2回答

    文件TF-IDF排名与排名的二元独立模型有什么区别?我无法区分它们。 我认为二进制独立模型的实际实现导致了TF-IDF。如果我错了,请帮助我。

    0热度

    1回答

    我必须通过使用n-gram匹配两篇研究论文的标题(仅适用于uni,bi和tri) 我的主管已经问过我相匹配的时候,我必须将更多的权重分配给bigram匹配的词条分数而不是单字符匹配术语得分和更多的权重卦匹配术语得分比双字符匹配术语得分。 例如,两个bigrams在标题匹配,然后得分= 2 和两个tigrams匹配,然后得分= 2 我必须寻找一些值,然后乘以它将增加trigram得分和减少bigra

    0热度

    1回答

    假设我有一个索引,其中包含两个用于排名的计算字段的文档:popularity和relevance。同时假设文档之间不存在重叠,文档应排在popularity之间,并且排名应为relevance。也就是说,在这个系统中,一些文件应该按照popularity和其他的relevance排列。 然后,我需要找回N排名靠前的文档与他们的N1由popularity排名和N-N1由relevance排名的要求。

    0热度

    1回答

    这一天,我研究了信息检索(特别是关于文本检索)。 我想制作一个搜索引擎。但我对倒序索引和向量空间模型(另外,布尔模型等...用于将文档表示为向量)的标题事物感到困惑 我认为倒转索引是向量空间模型的可选函数,因为这索引模型可以帮助程序更有效地获得术语(或单词) ....这是我的想法......是吗? 请发表评论。

    -1热度

    1回答

    可以说我有一个特定主题的“n”个文档给出了某些细节。我想得到那些与大多数文件不相似的文件。虽然看起来很模糊,但我知道如何找到2个文档之间的余弦相似度。但让我们说,我知道我有10个彼此相似的文档,我介绍一个第11个文档,我需要一种方法来判断这个文档与这10个文档是如何相似的,而不仅仅是每个单独的文档。 我正在与scikit学习,所以一个答案或技术与它的参考将帮助!

    1热度

    1回答

    我想使用Mallet作为专家查找项目的一部分。我几乎是马利特的新手,但我知道它从一组文档中培养主题。假设我有50个由Mallet培训的主题。我想计算这个概率:p(topic|q)或者p(q|topic) q是查询。这是一个词(如算法,机器人等),我希望找到指定区域的专家。 当我读到这篇文章:how to get word-topic probability using mallet,其中一位用户说