2011-10-03 134 views
0

我有一个约3000正面和1500负面样本,约1000功能的数据集。所有功能都是实数。我想用“randomForest”R包训练一个随机的分类器。randomForest:如何获得100% - 精确度?

的问题是,我想用100%精度(TP/TP + FP)上训练数据集的分类器。但是,我很难通过调整训练有素的随机森林中的$投票来实现这一目标。

我不知道是否有人有经验或有这样那样的问题的任何想法?如果你有任何线索,请给我一些提示。提前致谢!

我愿意接受任何其他机器学习方法,如果答应我100%的准确率。

+0

回想= TP /(TP + FN)。精度= TP /(TP + FP)。 http://en.wikipedia.org/wiki/Precision_and_recall#Definition_.28classification_context.29 –

回答

1

如果你一直无法通过修改您的投票率门槛做到这一点,那么你就必须以某种方式修改树木本身。要做到这一点

一种方式是实际训练加权树。不幸的是,我不”有一个指针,现在对于这一点,但是这是类似于什么在Viola/Jones paper here完成(但他们是为了提升。)

(其中第二个想法你看参数:classwt有评论“类的Priors。不需要加起来,忽略回归。”)this page

一个快速点:假阳性率不等于FP/(FP + TP)。这真的是FP/(FP + TN)或等效FP/"actual negatives",因为你真的只想考虑有多少误报被检测为实际底片的函数。

+0

感谢您的回复。我尝试了投票分数,但它的效果不是很好,因为一些负面样本的正面标签接近1票。我尝试了一下classwt,但它不能很好地工作(一些线程认为这个特性还没有在R中实现)。 – rninja

+0

您可能只需要更好的功能。 –