2010-12-21 17 views
0

由于公式精度是:文本检索系统中的精度值是否可以达到100%?

retrieved_and_relevant /(retrieved_and_relevant + retrieved_and_irrelevant)

如果在文本检索系统用于精密的值将永远不会从100%不同我想知道。我这么认为是因为,我们所有的程序员都竭尽全力,不忘记挤出所有文档的每一个文本。所以,当查询文本被触发到文本检索系统时,它将输出包含查询文本的所有文档。这意味着检索的所有文件都是相关文件;基本上使得分数达到100%。

这是真的还是我错过了一些观点?

回答

1

你对精度背后的概念有些困惑。

一个简单的例子是搜索条款iraq war。取决于搜索引擎的设计方式,结果可能会或可能不是用户正在寻找的内容。它可能会返回

  • 战争,伊拉克,该国参与
  • 一个虚构的故事在目前的伊拉克战争是军人,
  • 谈到有关各种战争和他们的财务影响的新闻文章。

每个文档都可能完全不同,并且包含确切的搜索词,但可能与用户所查找的内容无关。

搜索引擎肯定会喜欢有100%的精度,但这是非常罕见的。

精确度只能由执行搜索查询的用户自己决定,因为他们是唯一一个毫不怀疑地知道结果是否相关的人。这绝对是要争取的东西,但不相信它总是等于100%。

+0

非常感谢Josh W.对你的很好的解释。所以“相关性”是对结果的语义解释。感谢您澄清这个想法。 – bikashg 2010-12-21 19:14:06

相关问题