是否可以在R data.tables中进行补充汇总。下面的例子。R,对数据汇总的补充。表
library(data.table)
dt <- data.table(a=c("word1","word2","word2","word2"), b=c("cat1","cat1","cat1","cat2"))
要获得特定的词数在一个类别
newdt <- dt[,(.N),by=.(a,b)]
#word1,cat1 - 1
#word2,cat1 - 2
#word2,cat2 - 1
我怎么能指望在类别中的所有其它词的数量?或者相关地,这个词在其他类别中的数量?像下面这样的东西?
#doesn't work
#newdt2 <- dt[a!=a,(.N),by=.(a,b)]
#the expected answer would be
#word1,cat1 - 2
#word2,cat1 - 1
#word2,cat2 - 0
我在网上教程或问题中找不到任何帮助。有没有简单的方法来获得补充。 Data.table解决方案会很好,因为使用50M行表。谢谢!
它不是明确要求 – akrun
是啊,我也有不知道的问题是什么。另外,您的示例不可重现。你有没有试过运行你自己的代码? –
我不明白......不应该把'word2,cat2'变成2吗? – Sotos