2016-11-29 42 views
0

为了评估我的图像检索系统,我正在阅读很多关于Precision-Recall曲线的内容。特别是,我正在阅读关于VLFeat中的特征提取器的文章this以及关于精确调用的wikipedia page关于精度调用曲线和平均精度的困惑

我知道这条曲线对评估我们的系统性能w.r.t很有用。检索的元素的数量。所以我们反复计算检索顶部元素的精度 - 回忆,然后回到顶部2,顶部3等...但我的问题是:什么时候我们停止

我的直觉是:当我们的检索元素列表的回忆等于1时,我们停止,因此我们检索所有相关元素(即没有错误否定,只有真正的肯定)。

同样的问题是平均精度:检索结果中应该存在多少个元素来计算它?如果我以前的直觉是正确的,那么我们只需要找出什么是最小的列表s.t.召回是1,并用它来计算AP。

我不知道为什么所有用于计算p-r曲线的库都没有显示这是如何实现的?

回答

1

带有召回1的信息检索系统意味着一个完美的系统,在实践中似乎不可能!当您需要比较两个或更多信息检索系统时,Precision-Recall曲线很好。当召回或精确度达到某个值时,它不会停止。 Precision-Recall曲线显示每个点的召回和精度值对(考虑排名前3或5个文档)。您可以将曲线绘制到任何合理的点。

接近完美Precision-Recall曲线的曲线比接近基线的曲线具有更好的性能水平。换句话说,高于另一条曲线的曲线具有更好的性能水平。两个Precision-Recall曲线代表两个IR系统的性能水平:A和B.根据下图,系统A明显优于系统B.

enter image description here

记住Precision-Recall曲线不仅用于评估IR系统。它可以用来显示你的分类器有多好!例如,您可以计算精度,查找二元分类任务并绘制可以给出分类器性能的良好估计的曲线。

例如:

enter image description here enter image description here

我会鼓励你看到这个tutorial从Coursera。我相信你的想法会变得更加清晰。

+0

感谢您的详细解答,这真的很有帮助。请阅读[this](http://stackoverflow.com/questions/40906671/confusion-about-mean-average-precision)有关平均精度的相关问题 – justHelloWorld