在插入符包中使用火车的默认值,我试图训练数据集xtr2(dim(xtr2):765 9408)的随机森林模型。问题在于它难以置信地花费很长时间(一次训练需要一天以上)来适应功能。据我所知在默认情况下使用自举采样(25次)和三次随机选择mtry,为什么它应该这么长? 请注意,我需要在每次运行中训练rf三次(因为我需要用相同的数据来表示不同随机森林模型的结果),并且需要大约三天的时间,我需要运行10个不同样品的代码,所以我需要30天才能得到结果。R caret randomforest
我的问题是我如何使它更快?
可以改变列车的默认值使运行时间减少吗?例如使用简历进行培训?
可以使用脱字符包进行并行处理吗?如果是的话,该怎么办?
随机森林包的tuneRF可以做任何更改的时间?
这是代码:
rffit=train(xtr2,ytr2,method="rf",ntree=500)
rf.mdl =randomForest(x=xtr2,y=as.factor(ytr2),ntree=500,
keep.forest=TRUE,importance=TRUE,oob.prox =FALSE ,
mtry = rffit$bestTune$mtry)
谢谢
你能分享你的样本数据集吗? –
'dim(xtr2):765 9408'这是什么意思? – user31264
什么需要24小时:'train'或'randomForest'? 'rffit $ bestTune $ mtry'的价值是什么?你有没有试着调用randomForest或者在小样本的数据上使用相同的参数进行训练(比如说50个元素)并且看看发生了什么?您是否尝试过在这些小样本上玩参数:keep.forest,important,oob.prox,mtry? – user31264