2017-10-12 55 views
0

我使用H2O.AI h2o.automl函数来执行标准二进制分类问题。我正在使用在CRAN上发布的最后一个软件包版本。我跑到下面的代码:automl NaN排行榜性能

my_automl_model<-h2o.automl(x=predictorsList, y="Purchase", training_frame = train.h2o, validation_frame = test.h2o, stopping_metric = "logloss", max_runtime_secs = 60*60*3). 

是购买两个层面的因素(“N”,“S”)和预测名单是predictorsList。

快速调用的日志如下:

        model_id auc logloss 
1 GLM_grid_0_AutoML_20171012_150410_model_1 NaN  NaN 
2 GLM_grid_0_AutoML_20171012_150410_model_0 NaN  NaN 
3  DeepLearning_0_AutoML_20171012_145911 NaN  NaN 
4 StackedEnsemble_0_AutoML_20171012_145911 NaN  NaN 
5 GLM_grid_0_AutoML_20171012_145911_model_1 NaN  NaN 
6 GLM_grid_0_AutoML_20171012_145911_model_0 NaN  NaN 

据我了解,包居模式,但我不知道为什么没有显示性能指标...

此外,我想了解: 1.什么是XRT_xxx模型? 2.如果有任何方法指定n-fold交叉验证。

预先感谢支持

+0

您可以在公开的二进制分类数据集中重现此错误,还是可以共享您的数据集? –

回答

1

我会解决在最后两个问题,现在和更新我的回答如果你可以提供复制NA在排行榜问题的公开数据集。

  1. XRT_xxx模型代表什么?

XRT =使用极随机树随机森林(又名ExtraTrees)。这通过设置histogram_type = "Random"来实现。

  1. 如果有任何方法可以指定n-fold交叉验证。

现在你可以使用fold_column指定自定义褶皱,所以你可以可以改变褶皱这样的数量。这应该是指定的整数倍或因子的一列,所以创建此是一样的东西(R示例)的最简单的方法:

# train should be your training_frame; we will use iris as an example 
data("iris") 
train <- as.h2o(iris) 

# add a fold column that uses 10 folds 
train[,"fold"] <- as.h2o(rep_len(1:10, nrow(train))) 

然后在h2o.automl()设置fold_column = "fold"

在下一个版本中,我们将直接公开nfolds参数以使其更容易(按照此任务的进度here)。

+0

嗨艾琳,感谢您的初步见解......我会尝试在打开的分贝上复制问题,然后更新评论。 –