decision-tree

    0热度

    1回答

    我有两个数据集。 train <- read.csv("train.csv") test <- read.csv("test.csv") 列车组中的数据如下所示。 > str(train) 'data.frame': 891 obs. of 12 variables: $ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ... $ Survived : Fa

    3热度

    2回答

    我正在使用python和R中的sklearn设置load_iris数据集(它只是在R中称为“虹膜”)。 我使用“gini”索引在两种语言中构建模型,并且在两种语言中,我都能够在从虹膜数据集直接获取测试数据时正确测试模型。 但是,如果我给一个新的数据集作为测试输入,对于相同的Python和R把它放到不同的类别。 我不确定我在这里错过什么或做错了什么,所以任何指导将非常感激。 代码提到如下: 的Pyt

    0热度

    1回答

    我们如何使用'rpart'包来指定参数'minsplit ='来执行决策树。 rpart包(myFormula,数据=火车,控制= rpart.control(minsplit = 10))

    1热度

    1回答

    我有一个来自sklearn的决策树分类器,我使用pydotplus来显示它。 但是,当我的演示文稿(熵,样本和值)在每个节点上有很多信息时,我并不真正喜欢。 解释它更容易的人,我想只保留决策和它的类。 我在哪里可以修改代码来做到这一点? 谢谢。

    0热度

    1回答

    我已经开始使用scikit-learn决策树并且目前为止它工作得很好,但我需要做的一件事是检索样本集叶节点的Y值,特别是在运行预测时。给定一个输入特征向量X,我想知道叶节点处相应Y值的集合,而不仅仅是这些值的平均值(或中值)的回归值。当然,我们希望样本均值具有小的变化,但我想提取实际的Y值集合并进行统计/创建PDF。我已经使用了这样的代码how to extract the decision ru

    2热度

    1回答

    我的原始树更大,但由于我坚持了这个问题很长一段时间,我决定尝试简化我的树。我结束了这样的事情: 正如你所看到的,我只有叫“LarguraBandaRede”有3个可能的标称值“Congestionado”,“Livre的”和“Merda”的单一属性。 之后,我从weka中导出了j48.model以用于我的java代码。 随着这段代码我输入作为分类使用模式: ObjectInputStream ob

    0热度

    1回答

    我试图通过出口C50包构建了一个模型,R. 我使用partykit包提取的最后审判,但它没有返回相同合适的价值。 我不明白为什么as.party.c5.0函数与C5.0函数完全不一样。它适用于第一次试用,但不适用于其他试用。 例如: poc_db<-iris fullTree_prun_iris_Winow <- C5.0(Species ~ ., data =poc_db, trials =

    2热度

    2回答

    我正在尝试在UCI银行营销数据 - >https://archive.ics.uci.edu/ml/datasets/bank+marketing上构建决策树和随机森林分类器。数据集中有许多分类特征(具有字符串值)。 在spark ml文档中,提到可以使用StringIndexer或VectorIndexer通过索引将分类变量转换为数字。我选择使用StringIndexer(矢量索引需要矢量特征和

    1热度

    1回答

    我已经训练了gradient boost classifier,我想使用graphviz_exporter工具将其显示为here。 当我尝试它,我得到: AttributeError: 'GradientBoostingClassifier' object has no attribute 'tree_' 这是因为graphviz_exporter是为decision trees,但我想还是有

    0热度

    1回答

    我想配置一个提升的决策树,但不知道如何去做,我知道每个参数的含义,但不是我必须分配给它的最佳值。 这里是参数: 每棵树叶片的最大数目:我把(60100200300) 每叶节点样本的最小数目:我把(10, 30) 学习率:我把(0,1)构建树木 :我把(2000,5000,6000) 随机数种子:我把(4) 的问题是如何知道,如果你把正确的价值观或者如果你没有过度使用模型?