2013-03-17 51 views
4

我想scale我的data.table中的一个列的子集。有很多这些,我想scale,所以我想避免指定他们所有的名字。没有被缩放的列,我只想返回原样。这是我希望能工作,但它不:缩放R中的一列data.table的子集

require(data.table) 
x = data.table(id=1:10, a=sample(1:10,10), b=sample(1:10,10), c=sample(1:10,10)) 
> dput(x) 
structure(list(id = 1:10, a = c(1L, 6L, 10L, 7L, 5L, 3L, 2L, 
4L, 9L, 8L), b = c(4L, 9L, 5L, 7L, 6L, 1L, 8L, 10L, 3L, 2L), 
    c = c(2L, 7L, 5L, 6L, 4L, 1L, 10L, 9L, 8L, 3L)), .Names = c("id", 
"a", "b", "c"), row.names = c(NA, -10L), class = c("data.table", 
"data.frame"), .internal.selfref = <pointer: 0x1a85d088>) 

sx = x[,c(id, lapply(.SD, function(v) as.vector(scale(v)))), .SDcols = colnames(x)[2:4]] 
    Error in eval(expr, envir, enclos) : object 'id' not found 

有什么建议吗?

回答

3
sx = cbind(x[,-(2:4),with=FALSE],data.table(scale(x[,2:4,with=FALSE]))) 

我怀疑,最好是你的工作流将data.table融化为长格式。

+0

真棒,谢谢!实际上这是工作过程的结束。在此之后的步骤进行回归,并且结束它。 – Alex 2013-03-17 18:51:32

+0

这是我发现的唯一可以处理'by ='子句的解决方案:)。从'ddply'惊人的加速。 – user17130 2014-10-22 00:13:19

9

你也可以参照的数据表的副本

sc <- names(x)[2:4] 

sx <- copy(x)[ , (sc) := as.data.table(scale(.SD)), .SDcols = sc] 

规模返回一个矩阵,并IIRC data.table不喜欢矩阵的列分配。

或者,

sx <- copy(x)[ , (sc) := lapply(.SD,scale), .SDcols = sc] 

[中括号(sc)告诉data.table采取从变量的值的LHS值在呼叫范围,而不是列名sc本身。 ]

+0

+1我最近才发现我们甚至不需要'c()',只需'()'就足够了。 – 2013-03-17 22:09:22

+1

@MatthewDowle - 我也使用过{}。 – mnel 2013-03-17 22:23:58

+1

整洁。将在某处添加一些关于'()'和'{}'的文档,然后将其正式化。如果按逻辑列进行子集化,也已经开始在'i'中使用它;例如'DT [(logicalCol)]'。 – 2013-03-17 22:43:13