-1

我想计算我需要提取的正确数据记录,提取的数据记录总数和不正确的数据记录的召回和精度。如何计算提取的正确数据记录的数量?

我输入html页面,我从中提取有用的数据并使用包装器生成输出html页面。

+0

你需要一些东西来比较你的输出。如果你正在评估一个检索系统,你需要一个“理想的”(a.k.a黄金标准)检索到的文件,你将会与之比较。在这种情况下,您需要有一组正确的数据记录,可能是由人工完成的。 – jksnw

+1

请详细写下你的问题,并解释你想做什么。 –

+0

我同意@Nilesh,可以有更多的细节添加到您的问题。另外,为什么对答案进行投票?如果发生错误,可能是为什么或编辑发表评论。 – jksnw

回答

-1

要计算已提取多少正确的数据记录,您需要有一个reference set正确的数据记录。参考数据是您将输出与之比较的参考数据,参考数据是您的输出应匹配的理想输出。参考集也称为"gold standard"集。

参考集可能是手动创建的,或者如果您的目的存在更好的IR系统,可能由另一个系统生成。

要计算提取的正确数据记录的数量,您只需计算系统输出和黄金标准输出中的记录数。