我正在使用来自https://www.kaggle.com/c/titanic的泰坦尼克号数据集。按R中的自定义范围对数据进行分组(例如,0-4,1-5,2-6,3-7等)
我想让“0-4”,“1-5”,“2-6”,“3-7”等不同的年龄段,并找出存活百分比的年龄组最高。我的年龄组在整数区间内[0,80]。原始数据集中的“Age”列也包含NAs。 “Survived”列包含该人是否存活的信息(0 =否,1 =是)。
我试图解决这个问题,但它没有奏效。我会很感激任何帮助。
for(i in 0:80){
max= -Inf
x[i]<-(sum(subset(dataset, Age < (i+5) & Age >= i, select = "Survived")))/(length(which(dataset$Age < (i+5) & dataset$Age>= i)))
if (x[i] > max) max <- x[i]
return(max, i, i+5)}
您的群组重叠,“0-4”,“1-5”,“2-6”,“3-7”'。 “Age == 3”的值是什么组合,所有这些? –
是的,年龄== 3属于几个年龄组。我明白这很荒谬。但是如果有可能写出一个循环或者用这样的组合来制作一张桌子,以便找出step = 5的每个年龄段的幸存者的存活率? – iomedee