decision-tree

    0热度

    1回答

    如何在决策树的情况下找到对特定预测贡献最大的变量?例如。如果有特征A,B,C,D,E,并且我们在数据集顶部建立一个决策树。那么对于样本x,可以说变量C,D对预测(x)贡献最大。如何找到在H2O中预测(x)最有用的变量?我知道一旦决策树建立起来,H2O就赋予了变量的全局重要性。我们的问题适用于当我们使用该特定树来做出决定并找出有助于该特定决定的变量的情况。 Scikit学习功能可以提取用于预测样本的

    1热度

    1回答

    我对decision trees相当陌生,并且在向下移动分支时解释它们时有点麻烦。我有几个关于R的情节的问题。响应变量是Survived(Yes/No),这要根据年龄,票价,兄弟姐妹的数量以及我使用下面附加决策树的父母的数量来预测Kaggle的Titanic数据集。 绿色/蓝色的不同颜色是什么意思? 如何解释叶节点? 我知道顶级节点的解释是38%存活下来,62%没有存活下来,100%的人口在这个桶

    0热度

    1回答

    我正在实施C4.5,并在我的计算中得到(对于某些示例)信息增益的负值。我读了Why am I getting a negative information gain,但我的发现看起来不一样。我推杆我的计算脱颖而出,我也得到了相同的结果如下: My calculations 我到底做错了什么? 我试图重新计算它的,也是我得到负值是在下面的图片: Newest calculations with da

    1热度

    2回答

    我设法让我的决策树分类器适用于基于RDD的API,但现在我正试图切换到Spark中基于Dataframes的API。 我有一个这样的数据集(但有更多的字段): 国家,目的地,时间,标签 Belgium, France, 10, 0 Bosnia, USA, 120, 1 Germany, Spain, 30, 0 首先,我加载一个数据帧我的csv文件: val data = session

    1热度

    2回答

    我从下面的代码scikit学习网站: import numpy as np from sklearn.datasets import load_iris from sklearn.model_selection import cross_val_score from sklearn.tree import DecisionTreeClassifier iris = load_iris()

    0热度

    1回答

    我试图使用XGBoost作为gbm的替代品。 我得到的分数很奇怪,所以我在想也许我在代码中做错了什么。 我的数据包含几个因子变量,所有其他数字。 响应变量是指示房价的连续变量。 我明白,为了使用XGBoost,我需要使用一个热门恩为那些。我用下面的代码这样做: Xtest <- test.data Xtrain <- train.data XSalePrice <- Xtrain$SalePr

    0热度

    1回答

    我有一个工作决策树,并且还有一个来自我的培训数据的工作.Dot输出文件。我想要做的是输出每条记录的决策树过程。我的意思是,我想向用户展示,而不是以单个分支甚至文本的形式显示每个记录遵循何种路径以达成决定的结果。这可能吗?

    0热度

    1回答

    我正在学习如何使用scikit-learn使用python v3.6做机器学习的决策树。 这是代码; import pandas as pd import numpy as np import matplotlib.pyplot as plt import mglearn import graphviz from sklearn.datasets import load_breast_

    0热度

    1回答

    我想从我的rpart输出创建一个表(请参见下文)。 表基本上应包含以下变量作为数据帧: - 终端节点号(下面4,10,22,23,3的例子) - 终端节点观察 - 终端节点目标CNT(数缺席或存在于每个节点中) 但是我想在更改或修剪树时自动执行此操作。 有什么建议吗? library(rpart) rp <- rpart(Kyphosis ~ Age + Number + Start, data

    0热度

    2回答

    误差 TypeError: float() argument must be a string or a number 其中错误: clf = clf.fit(model_train,y_train) 我的代码如下 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.