automl NaN排行榜性能

我使用H2O.AI h2o.automl函数来执行标准二进制分类问题。我正在使用在CRAN上发布的最后一个软件包版本。我跑到下面的代码：automl NaN排行榜性能

my_automl_model<-h2o.automl(x=predictorsList, y="Purchase", training_frame = train.h2o, validation_frame = test.h2o, stopping_metric = "logloss", max_runtime_secs = 60*60*3).

是购买两个层面的因素（“N”，“S”）和预测名单是predictorsList。

快速调用的日志如下：

        model_id auc logloss 
1 GLM_grid_0_AutoML_20171012_150410_model_1 NaN  NaN 
2 GLM_grid_0_AutoML_20171012_150410_model_0 NaN  NaN 
3  DeepLearning_0_AutoML_20171012_145911 NaN  NaN 
4 StackedEnsemble_0_AutoML_20171012_145911 NaN  NaN 
5 GLM_grid_0_AutoML_20171012_145911_model_1 NaN  NaN 
6 GLM_grid_0_AutoML_20171012_145911_model_0 NaN  NaN

据我了解，包居模式，但我不知道为什么没有显示性能指标...

此外，我想了解： 1.什么是XRT_xxx模型？ 2.如果有任何方法指定n-fold交叉验证。

预先感谢支持

来源

2017-10-12 Giorgio Spedicato

您可以在公开的二进制分类数据集中重现此错误，还是可以共享您的数据集？ –

我会解决在最后两个问题，现在和更新我的回答如果你可以提供复制NA在排行榜问题的公开数据集。

XRT_xxx模型代表什么？

XRT =使用极随机树随机森林（又名ExtraTrees）。这通过设置histogram_type = "Random"来实现。

如果有任何方法可以指定n-fold交叉验证。

现在你可以使用fold_column指定自定义褶皱，所以你可以可以改变褶皱这样的数量。这应该是指定的整数倍或因子的一列，所以创建此是一样的东西（R示例）的最简单的方法：

# train should be your training_frame; we will use iris as an example 
data("iris") 
train <- as.h2o(iris) 

# add a fold column that uses 10 folds 
train[,"fold"] <- as.h2o(rep_len(1:10, nrow(train)))

然后在h2o.automl()设置fold_column = "fold"。

在下一个版本中，我们将直接公开nfolds参数以使其更容易（按照此任务的进度here）。

来源

2017-10-12 16:01:05

嗨艾琳，感谢您的初步见解......我会尝试在打开的分贝上复制问题，然后更新评论。 –

automl NaN排行榜性能

回答

相关问题