2012-05-06 77 views
2

我曾经为了测量的精度和原代码召回 有两个文件,主题文件Lucene的标杆Lucene的回忆:计算精度和使用记录仪

QualityQuery qqs[] = qReader.readQueries(new BufferedReader(new FileReader(topicsFile))); 

和qrelsFile:

Judge judge = new TrecJudge(new BufferedReader(new FileReader(qrelsFile))); 

这两个文件是文本文件,据我所知。但我不知道我需要完整填写这两个文件,他们是由我手动编写还是有一些代码来填充它们所需的信息。

我需要在Lucene的程序这个精确度和召回测量任何帮助

感谢

回答

1

的Javadoc TrecJudge http://lucene.apache.org/core/old_versioned_docs/versions/3_4_0/api/all/org/apache/lucene/benchmark/quality/trec/TrecJudge.html

给出:

法官,如果给定的文档是有关给定质量查询,基于Trec格式进行判断。

TREC(http://trec.nist.gov/)是一系列提供信息检索竞赛的会议。

我怀疑你可能不得不做一些你自己的侦探工作,但这是我感兴趣的,我可能会添加一些更多的信息。

一般为标杆的战略将是这样的:

  • 提供与您感兴趣的领域它
  • 注释部分,以指示什么应该被召回的语料库。这可能是两组 - 一个与信息(正面)和一个没有(负面)
  • 将其分为两部分 - 一个训练您的应用程序和一个测试它(有更复杂的方法,需要更多)
  • 在测试集上运行评估软件。

您将需要提供TREC格式的格式,我怀疑。

+0

非常感谢,现在对我很清楚。但我拥有超过700个文件的语料库。据我了解,基于我的IR系统,我必须为每个查询指定与它相关的文件列表(作为搜索结果),并将这些信息写入topicsFile和qrlis文件。这是正确的?非常感谢你的帮助。 – Abreal