2012-12-20 140 views
1

我发现了几个关于此主题的问题/答案,但我无法解决我的问题......所以我会按照自己的方式提出问题。很抱歉,如果它是明显的。与plyr分割数据帧

我准备了一个数据帧(z2)与ggplot2一起使用。该数据框包含一个带有实数的列“值”,标识测试参数的列“名称”,作为每个个体唯一ID的列“loghos”和作为结果变量的列“statut”。

我能够容易地绘制“值”,根据用于“statut”针对每个“名称”用下面的代码:

pt <- ggplot(z2, aes(y = value, x = statut)) 
pt + geom_boxplot(aes(colour=statut)) + facet_wrap(~name, scales="free_y") 

在数据帧中,我重复对每个“名称”的值对于每个“loghos”(几个样本在不同的时间点)

我想绘制每个'名称'和每个'病人'的最小值。所以我试着用这个plyr, :

x = ddply(z2, .(loghos,name), function(x) return(min(x,na.rm=T))) 

但是,我收到了这个错误信息,现在我不知道该怎么办?

Erreur dans FUN(X[[1L]], ...) : 
    only defined on a data frame with all numeric variables 

我敢肯定这没什么大不了的,但我找不到正确的写法!

由于提前,

于连

编辑:设置在data.frame的样品下面

y = z2[sample(nrow(z2),20),c(1,2,3,9,11,12,13)] 
y 
     cleBilan name value loghos sexe age statut 
80612 328347 plaq 384.00 31218139 M 21 transfert 
36304 363835  gb 5.62 41416171 M 72 service 
59346 267744 lympho 9.90 30628552 F 22 service 
62746 388270 lympho 8.70 41620223 M 78 service 
81046 342228 plaq 185.00 41120284 M 19 service 
67400 323055 mono 3.10 31273421 F 45 service 
35572 335928  gb 16.16 41178061 F 22 transfert 
71136 256960 neutro 10.65 30401746 M 71 transfert 
34324 293368  gb 16.20 30894579 F 30 service 
69010 383939 mono 6.90 41574890 M 22 service 
63665 236360 mono 4.40 29970714 M 71 service 
31366 233999  gb 7.20 29959612 F 18 service 
60867 317932 lympho 12.00 31229099 M 50 service 
74487 355581 neutro 10.68 41154330 F 23 service 
65520 265864 mono 7.00 30583193 M 78 service 
36553 375590  gb 7.10 41489078 M 61 service 
65849 268730 mono 3.90 30652360 M 89  deces 
80813 354964 plaq 404.00 41120284 M 19 service 
31271 232524  gb 6.30 29934806 M 36 service 
72789 291335 neutro 11.00 30923095 F 35 service 
+3

hi julien,你能提供[一些示例数据](http://stackoverflow.com/questions/5963269/how-to -ma-r-reproducible-example)?:) –

+3

可能是'ddply(z2,。(loghos,name),summary,value = min(value,na.rm = T))',很难说没有数据 – baptiste

+1

或ddply(z2,。(loghos,name ),函数(x)min(x $ value,na.rm = T))'。 'ddply'传递给匿名函数的参数是data.frame。 – Roland

回答

1
回答

总结从注释:

作为评论由巴普蒂斯特: “ddply将数据拆分成小块;您需要提供一个将块(data.frame)作为输入并返回数据的函数。帧。 。summarise就是这样的一个功能,但min本身不是”

因此减少初始data.frame,正确的代码是:

x = ddply(z2, .(loghos, name, statut), summarise, value = min(value,na.rm=T)) 

在此功能中,只有loghosnamevalue是因为statut is unique for each loghos . I added it to the list to keep its value in the x` data.frame,因为它是输出变量。