2017-02-09 70 views
1

我对decision trees相当陌生,并且在向下移动分支时解释它们时有点麻烦。我有几个关于R的情节的问题。响应变量是SurvivedYes/No),这要根据年龄,票价,兄弟姐妹的数量以及我使用下面附加决策树的父母的数量来预测Kaggle的Titanic数据集。决策树解释(泰坦尼克号数据)

  1. 绿色/蓝色的不同颜色是什么意思?
  2. 如何解释叶节点?
  3. 我知道顶级节点的解释是38%存活下来,62%没有存活下来,100%的人口在这个桶里。如果我将 移到右边......我将如何解读第3桶?如果我继续前进, 第6桶?等等...

Titanic Decision Tree

回答

0

1)的节点根据对应于该节点的大多数类着色。多数类标签为no(未生存)的节点呈绿色,否则为蓝色(yes或存活)。

2)让我们解释最底部的最左边的叶节点。对应于该节点的数据点的83%具有类别标签no17%具有类别标签yes。该节点包含来自整个数据集的62%数据点。

3)铲斗#3可以被类似地解释:对应于所述节点的数据点的26%具有类别标签no74%具有类标签yes。该节点包含整个数据集中的35%数据点。如果计算节点#2和#3的no标签的权重比例,则会得到0.65*0.81+0.35*0.26=0.6175~0.62,这是包含标签no的根节点中数据的比例。

+1

真的很有帮助,谢谢。第3桶的解释是否有效? 1)如果女性存活率达74%(在35%的数据中) 2)如果女性是女性(数据的35%以内),则26%无法存活 –

+0

绝对是。 –

相关问题