decision-tree

0热度

1回答

如何在决策树的情况下找到对特定预测贡献最大的变量？例如。如果有特征A，B，C，D，E，并且我们在数据集顶部建立一个决策树。那么对于样本x，可以说变量C，D对预测（x）贡献最大。如何找到在H2O中预测（x）最有用的变量？我知道一旦决策树建立起来，H2O就赋予了变量的全局重要性。我们的问题适用于当我们使用该特定树来做出决定并找出有助于该特定决定的变量的情况。 Scikit学习功能可以提取用于预测样本的

1热度

1回答

决策树解释（泰坦尼克号数据）

我对decision trees相当陌生，并且在向下移动分支时解释它们时有点麻烦。我有几个关于R的情节的问题。响应变量是Survived（Yes/No），这要根据年龄，票价，兄弟姐妹的数量以及我使用下面附加决策树的父母的数量来预测Kaggle的Titanic数据集。绿色/蓝色的不同颜色是什么意思？如何解释叶节点？我知道顶级节点的解释是38％存活下来，62％没有存活下来，100％的人口在这个桶

0热度

1回答

信息增益的负值

我正在实施C4.5，并在我的计算中得到（对于某些示例）信息增益的负值。我读了Why am I getting a negative information gain，但我的发现看起来不一样。我推杆我的计算脱颖而出，我也得到了相同的结果如下： My calculations 我到底做错了什么？我试图重新计算它的，也是我得到负值是在下面的图片： Newest calculations with da

1热度

2回答

在带有字符串字段的spark中使用决策树分类器的数据框

我设法让我的决策树分类器适用于基于RDD的API，但现在我正试图切换到Spark中基于Dataframes的API。我有一个这样的数据集（但有更多的字段）：国家，目的地，时间，标签 Belgium, France, 10, 0 Bosnia, USA, 120, 1 Germany, Spain, 30, 0 首先，我加载一个数据帧我的csv文件： val data = session

1热度

2回答

scikit-learn确定性使用CART算法吗？

我从下面的代码scikit学习网站： import numpy as np from sklearn.datasets import load_iris from sklearn.model_selection import cross_val_score from sklearn.tree import DecisionTreeClassifier iris = load_iris()

0热度

1回答

在R中使用XGBoost进行回归模型

我试图使用XGBoost作为gbm的替代品。我得到的分数很奇怪，所以我在想也许我在代码中做错了什么。我的数据包含几个因子变量，所有其他数字。响应变量是指示房价的连续变量。我明白，为了使用XGBoost，我需要使用一个热门恩为那些。我用下面的代码这样做： Xtest <- test.data Xtrain <- train.data XSalePrice <- Xtrain$SalePr

0热度

1回答

Scikit学习 - 决策树 - 每个记录的结果的可视化表示

我有一个工作决策树，并且还有一个来自我的培训数据的工作.Dot输出文件。我想要做的是输出每条记录的决策树过程。我的意思是，我想向用户展示，而不是以单个分支甚至文本的形式显示每个记录遵循何种路径以达成决定的结果。这可能吗？

0热度

1回答

用graphwiz显示这个决策树

我正在学习如何使用scikit-learn使用python v3.6做机器学习的决策树。这是代码; import pandas as pd import numpy as np import matplotlib.pyplot as plt import mglearn import graphviz from sklearn.datasets import load_breast_

0热度

1回答

R rpart创建终端节点表

我想从我的rpart输出创建一个表（请参见下文）。表基本上应包含以下变量作为数据帧： - 终端节点号（下面4,10,22,23,3的例子） - 终端节点观察 - 终端节点目标CNT（数缺席或存在于每个节点中）但是我想在更改或修剪树时自动执行此操作。有什么建议吗？ library(rpart) rp <- rpart(Kyphosis ~ Age + Number + Start, data

0热度

2回答

决策树：如何更换“男”的值，它可以帮助我解决模型

误差 TypeError: float() argument must be a string or a number 其中错误： clf = clf.fit(model_train,y_train) 我的代码如下 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.