我想计算的T统计量的R中特征选择与循环。数据有155列,因变量是二元的(诱变剂 - 非突变型)。我想为每列分配一个t-stat。问题是我无法弄清楚我怎么写它。吨-STAT的特征选择
这里是我试图R中执行公式:
此外,我写了一个代码,但我不知道它,它只是为第一列。我需要将它写入所有列的for循环。
abs(diff(tapply(train_df[,1], train_df$Activity, mean)))/sqrt(sd((train_df$NEG_01_NEG[train_df$Activity == "mutagen"])^2)/(length(train_df$NEG_01_NEG[train_df$Activity == "mutagen"])) +
sd((train_df$NEG_01_NEG[train_df$Activity != "mutagen"])^2)/(length(train_df$NEG_01_NEG[train_df$Activity != "mutagen"])))
提前感谢!
首先,要求与编码帮助关闭话题在这里。其次,你为什么要使用$ t $ -statistic做特征选择?我不知道任何目标(如预测建模,解释性建模,......),这种选择将是最优的。考虑套索(及其版本),岭回归或弹性网。 –
@RichardHardy首先,我不知道,对不起。我只是想在火车模型之前获得先验知识。我不是在寻找最佳选择或类似的东西。我只是在论文中看到了一个特征选择方法,并且想尝试一下。就这些了。顺便说一句,谢谢你的回答。 – silverstone
我所做的正是,如果想要做的编码自己,但是这并不能帮助你太多的功能。我们如果希望 – ekstroem