2016-08-09 112 views
-2

我使用虹膜数据R.,使用R

我写这样的代码是什么决策树平均Y:

irisctree<-ctree(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width) 
plot(itisctree,type="simple") 

,并导致看见我这个样子: enter image description here

这是什么意思?

Y =(1,0,0)和y =(0,0.939,0.061),Y =(0,0.031,0.969)

+0

你需要统计教育。这不是真正的SO任务。 –

回答

1

如果您在iris看物种(您的响应变量)数据集,你会看到,它与3级水平的因素:

> unique(iris$Species) 
[1] setosa  versicolor virginica 
Levels: setosa versicolor virginica 

鉴于该水平出现在上面的顺序:setosa,云芝,锦葵,决策树的输出为每一种的概率水平,并且概率总和为1.

要验证这一点,请查看您的t的左侧分割稀土元素。它分裂在Petal.Length <= 1.9。当Petal.Length <= 1.9时物种的分布是什么?

prop.table(table(iris[iris$Petal.Length <= 1.9,]$Species)) 

setosa versicolor virginica 
    1   0   0 

在上面的代码中,我子集上Petal.Length <= 1.9,然后看物种(因此prop.table(table(...)))的分布。 100%是Setosa。

另一个例子:右分割(Petal.Length > 1.9)和左分割(Petal.Width <= 1.6)。结果是:

prop.table(table(iris[iris$Petal.Length > 1.9 & iris$Petal.Width <= 1.6,]$Species)) 

setosa versicolor virginica 
0.00000000 0.92307692 0.07692308 

我在这里的号码与您的不匹配。我相信你有100行的训练集,而我正在使用整个数据集。这可能是差异的原因。纠正我,如果我错了。

1

这些是目标变量Species的三个类别中每一个的概率,对于位于每个叶节点中的实例。

因此,例如,在您的中叶,Species == setosa的概率为0,Species == versicolor为0.939,Species == virginica的概率为0.061。