2016-03-16 48 views
-1

我正在做一个项目,使用文本挖掘找出疾病相关基因。我为此使用了1000篇文章。我有大约129个基因名称。实际的数据集包含大约1000个条目。现在我想计算我的方法的精度和回忆。当我做了比较时,在129个基因中,有72个被发现是正确的。所以 精度= 72/129。 这是正确的吗? 现在我该如何计算召回?请帮忙文本挖掘结果的计算精度和召回率

回答

0

Wikipedia Article on Precision and Recall可能会有所帮助。 的定义是:

Precision: tp/(tp+fp) 
Recall: tp/(tp + fn) 

tp是真阳性(它与疾病相关基因,你发现他们),fp是误报(你发现的基因,但他们实际上没有与疾病有关)和fn是假阴性(实际上与疾病相关的基因,但您没有找到它们)。

我不太确定你发布的数字是什么。你知道真正与这种疾病有关的基因吗?

你最有可能计算精度:

Accuracy = (tp + fp)/(Total Number) 
+1

感谢您的回复。我昨天清了清,我在下面发布了答案。 – Ansu

0

的主要问题是,根据我所考虑的文章可能不包含所有自一个小数据集的最初上市的基因名称。因此,在计算召回量时,不要将分母视为1000,我可以将原始基因数据库与文章进行比较,以查明文献中存在多少最初相关基因。即如果有1000个相关基因,我将在1000个数据集中检查出我正在考虑的数据集中有多少个。如果它是300,我会将分母设置为300而不是1000.这会给召回。