我使用虹膜数据R.,使用R
我写这样的代码是什么决策树平均Y:
irisctree<-ctree(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width)
plot(itisctree,type="simple")
这是什么意思?
Y =(1,0,0)和y =(0,0.939,0.061),Y =(0,0.031,0.969)
我使用虹膜数据R.,使用R
我写这样的代码是什么决策树平均Y:
irisctree<-ctree(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width)
plot(itisctree,type="simple")
这是什么意思?
Y =(1,0,0)和y =(0,0.939,0.061),Y =(0,0.031,0.969)
如果您在iris
看物种(您的响应变量)数据集,你会看到,它与3级水平的因素:
> unique(iris$Species)
[1] setosa versicolor virginica
Levels: setosa versicolor virginica
鉴于该水平出现在上面的顺序:setosa,云芝,锦葵,决策树的输出为每一种的概率水平,并且概率总和为1.
要验证这一点,请查看您的t的左侧分割稀土元素。它分裂在Petal.Length <= 1.9
。当Petal.Length <= 1.9
时物种的分布是什么?
prop.table(table(iris[iris$Petal.Length <= 1.9,]$Species))
setosa versicolor virginica
1 0 0
在上面的代码中,我子集上Petal.Length <= 1.9
,然后看物种(因此prop.table(table(...))
)的分布。 100%是Setosa。
另一个例子:右分割(Petal.Length > 1.9
)和左分割(Petal.Width <= 1.6
)。结果是:
prop.table(table(iris[iris$Petal.Length > 1.9 & iris$Petal.Width <= 1.6,]$Species))
setosa versicolor virginica
0.00000000 0.92307692 0.07692308
我在这里的号码与您的不匹配。我相信你有100行的训练集,而我正在使用整个数据集。这可能是差异的原因。纠正我,如果我错了。
这些是目标变量Species
的三个类别中每一个的概率,对于位于每个叶节点中的实例。
因此,例如,在您的中叶,Species == setosa
的概率为0,Species == versicolor
为0.939,Species == virginica
的概率为0.061。
你需要统计教育。这不是真正的SO任务。 –