2014-01-28 69 views
3

目前我正在学习信息检索是我比较坚持了召回率和准确了解召回值和精度

搜索者使用搜索引擎寻找信息的一个例子。第一个结果屏幕上有10个文件,第二个屏幕上有10个文件。

假设已知在搜索引擎索引中有10个相关文档。

Soo ...共有20个搜索,其中10个相关。

任何人都可以帮助我理解这一点吗?

谢谢

+0

似乎从搜索引擎一半的点击率是不相关? “已知有10个相关文档”和“每页10个结果”有点不幸。这是不一样的数字(尽管都是'10')。你想知道这件事? – Floris

回答

7

召回并精确测量结果的质量。为了理解它们,我们首先定义结果的类型。在返回列表中的文档可以是

  • 正确分类

    • 真阳性(TP):一个文件,该文件是相关的(正)确实返回(真)
    • 一真阴性(TN):一份文件,是不相关的(负),这是确实没有返回(真)
  • 误判

    • 假阳性(FP):一份文件,是不相关的,但被退回
    • 假阴性(FN):一个文件,该文件是相关的,但没有返回

的精度是:

| TP | /(| VTP | + | FP |)

即检索到的文档,其确实相关

召回随后的分数:

| TP | /(| VTP | + | FN |)

即它们是在你的结果的相关文档的分数设定

因此,在你实施例10的20个结果是相关的。这给你一个0.5的精度。如果没有超过这10个相关文档,则您的召回率为1.

(当衡量信息检索系统的性能时,只考虑精度和召回率是有意义的,您可以轻松获得精度100%返回没有结果(即没有虚假返回的实例=>没有FP)或通过返回每个实例(即没有错过相关文档=>没有FN)回收100%。)

相关问题