decision-tree

0热度

1回答

我有两个数据集。 train <- read.csv("train.csv") test <- read.csv("test.csv") 列车组中的数据如下所示。 > str(train) 'data.frame': 891 obs. of 12 variables: $ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ... $ Survived : Fa

3热度

2回答

为什么用python编写的决策树代码与用R编写的代码不同？

我正在使用python和R中的sklearn设置load_iris数据集（它只是在R中称为“虹膜”）。我使用“gini”索引在两种语言中构建模型，并且在两种语言中，我都能够在从虹膜数据集直接获取测试数据时正确测试模型。但是，如果我给一个新的数据集作为测试输入，对于相同的Python和R把它放到不同的类别。我不确定我在这里错过什么或做错了什么，所以任何指导将非常感激。代码提到如下：的Pyt

0热度

1回答

如何在决策树中使用rpart决定'minsplit'？

我们如何使用'rpart'包来指定参数'minsplit ='来执行决策树。 rpart包（myFormula，数据=火车，控制= rpart.control（minsplit = 10））

1热度

1回答

Python - Graphviz - 删除DecisionTreeClassifier节点上的图例

我有一个来自sklearn的决策树分类器，我使用pydotplus来显示它。但是，当我的演示文稿（熵，样本和值）在每个节点上有很多信息时，我并不真正喜欢。解释它更容易的人，我想只保留决策和它的类。我在哪里可以修改代码来做到这一点？谢谢。

0热度

1回答

scikit-learn决策树回归：检索所有样本的叶子（不是意味着）

我已经开始使用scikit-learn决策树并且目前为止它工作得很好，但我需要做的一件事是检索样本集叶节点的Y值，特别是在运行预测时。给定一个输入特征向量X，我想知道叶节点处相应Y值的集合，而不仅仅是这些值的平均值（或中值）的回归值。当然，我们希望样本均值具有小的变化，但我想提取实际的Y值集合并进行统计/创建PDF。我已经使用了这样的代码how to extract the decision ru

2热度

1回答

Weka J48分类不遵循树

我的原始树更大，但由于我坚持了这个问题很长一段时间，我决定尝试简化我的树。我结束了这样的事情：正如你所看到的，我只有叫“LarguraBandaRede”有3个可能的标称值“Congestionado”，“Livre的”和“Merda”的单一属性。之后，我从weka中导出了j48.model以用于我的java代码。随着这段代码我输入作为分类使用模式： ObjectInputStream ob

0热度

1回答

出口从C5.0模型庭审最后

我试图通过出口C50包构建了一个模型，R. 我使用partykit包提取的最后审判，但它没有返回相同合适的价值。我不明白为什么as.party.c5.0函数与C5.0函数完全不一样。它适用于第一次试用，但不适用于其他试用。例如： poc_db<-iris fullTree_prun_iris_Winow <- C5.0(Species ~ ., data =poc_db, trials =

2热度

2回答

如何处理spark tree中的决策树，随机森林的分类特征？

我正在尝试在UCI银行营销数据 - >https://archive.ics.uci.edu/ml/datasets/bank+marketing上构建决策树和随机森林分类器。数据集中有许多分类特征（具有字符串值）。在spark ml文档中，提到可以使用StringIndexer或VectorIndexer通过索引将分类变量转换为数字。我选择使用StringIndexer（矢量索引需要矢量特征和

1热度

1回答

如何可视化Sklearn GradientBoostingClassifier？

我已经训练了gradient boost classifier，我想使用graphviz_exporter工具将其显示为here。当我尝试它，我得到： AttributeError: 'GradientBoostingClassifier' object has no attribute 'tree_' 这是因为graphviz_exporter是为decision trees，但我想还是有

0热度

1回答

如何配置增强树模型

我想配置一个提升的决策树，但不知道如何去做，我知道每个参数的含义，但不是我必须分配给它的最佳值。这里是参数：每棵树叶片的最大数目：我把（60100200300）每叶节点样本的最小数目：我把（10， 30）学习率：我把（0,1）构建树木：我把（2000,5000,6000）随机数种子：我把（4）的问题是如何知道，如果你把正确的价值观或者如果你没有过度使用模型？