我希望做两交叉验证使用RandomSplits像星火交叉验证与培训,测试和验证集
- CV_global在星火处理:通过拆分数据到训练集90%和测试集10%
1.1。 CV_grid:在训练集的一半上进行网格搜索,即45%的数据。
1.2。 拟合模型:使用CV_grid的最佳设置训练集(90%)。
1.3 测试模型:上测试设置(10%)
- 每10倍和全局度量报告平均指标。
问题是我只找到在整个训练集上使用CV和网格搜索的例子。
我怎样才能从CV_grid表现最好的模型的参数?
如何在没有网格搜索的情况下进行简历,但每次获得统计数据?例如 sklearn.cross_validation.cross_val_score
其实'Apache的spark'不支持,你必须使用'DataFrames'或'RDDs'自己来做。这并不难(我已经完成了) –
那么,我使用ML管道进行端到端的连接,所以我跳槽时不需要打破这个代码。主要问题是如何从ParamGridBuilder获取最佳模型的参数。我不太熟悉Spark – harvybcn