我有一个数据框与10,000行和两列,段(一个因素与32值)和目标(一个因素有两个值,'是'和'否',每5,000 )。我正在尝试使用随机森林来将使用细分受众群作为目标的目标进行分类。奇怪的结果与randomForest R包
训练随机森林分类后:
> forest <- randomForest(target ~ segment, data)
混淆矩阵向“不”强烈的偏见:
> print(forest$confusion)
no yes class.error
no 4872 76 0.01535974
yes 5033 19 0.99623911
出了10,000行的,比100少得了归类为“是“(尽管原始计数是50/50)。如果我切换标签的名称,我得到相反的结果:
> data$target <- as.factor(ifelse(data$target == 'yes', 'no', 'yes'))
> forest <- randomForest(target ~ segment, data = data)
> print(forest$confusion)
no yes class.error
no 4915 137 0.02711797
yes 4810 138 0.97210994
因此,这不是一个真正的信号......此外,原来的交叉表相对均衡:
> table(data$target, data$segment)
1 10 11 12 13 14 15 16 17 18 19 2 20 21 22 23 24 25 26 27 28 29 3 30 31 32 4 5 6 7 8 9
no 1074 113 121 86 68 165 210 70 120 127 101 132 90 108 171 122 95 95 76 72 105 71 234 58 83 72 290 162 262 192 64 139
yes 1114 105 136 120 73 201 209 78 130 124 90 145 81 104 155 128 79 85 83 70 93 78 266 70 93 76 291 160 235 194 49 137
它看起来像randomForest采取第一个标签,并几乎总是分配点。为了澄清,数据框是具有更多功能的较大表格的一个子集 - 我发现这个特定功能以某种方式导致了这个结果,无论包含多少其他功能。我想知道我是否缺少一些关于随机森林分类器的基本知识,或者是否存在导致这种奇怪结果的编码问题或其他错误。
原始数据集可作为一个RDS这里:
https://www.dropbox.com/s/rjq6lmvd78d6aot/weird_random_forest.RDS?dl=0
谢谢!
我同意我不应该期待好的结果 - 我对这最后一点大多感到惊讶,当'segment'是一个因素时'randomForest'几乎总是选择“no”。不知何故,我预计更多的异质性。 – 2014-12-05 21:55:22