2016-03-21 48 views
1

我有200名患者被分配到2:1比例的训练和验证集。我使用插入符号与GLMNET训练分类,允许预测二进制表型:插入 - 预测训练集的表型标签?

splitSample <- createDataPartition(phenotype, p = 0.66, list = FALSE) 
training_expression <- expression[splitSample,] 
training_phenotype <- phenotype[splitSample] 
validation_expression <- expression[-splitSample,] 
validation_phenotype <- phenotype[-splitSample] 

eGrid <- expand.grid(.alpha=seq(0,1,by=0.1),.lambda=seq(0,1,by=0.01)) 
Control <- trainControl(number=10, repeats=1, verboseIter=FALSE, classProbs=TRUE, summaryFunction=twoClassSummary, method="cv") 
netFit <- train(x =training_expression, y = training_phenotype,method = "glmnet", metric = "ROC", tuneGrid=eGrid,trControl = Control) 
netFitPerf <- getTrainPerf(netFit) 

predict_validation <- predict(netFit, newdata = validation_expression) 
confusionMatrix(predict_validation,validation_phenotype) 

“predict_validation”包含在验证组每个患者的预测表型标签 - 是否有任何有效的方法,也取得“预测“表型标记,即对于所有可用患者最终具有预测的表型标记(这对于进一步执行统计分析是重要的,例如将来自所有患者的预测表型标记与其他参数进行比较(例如,其与年龄的相关性或生存等)?任何想法?

Thank's for your help!

回答

1

使用支持从训练集预测将是重要的;只是重新预测它们会导致过度装配值。

如果使用选项trainControl(savePredictions = "final"),则train对象将具有一个名为pred的元素,并带有保留预测。

最大

+0

谢谢。那正是我期待的! – user86533

相关问题