我正在尝试对将公司分类为20个不同行业和800个类别的数据集进行分析。每个行业类别都有自己的专栏。下面是一个示例数据帧R - 按多列分组
df <- data.frame(biz.name=c("goog", "face", "eb"), worth=c(100, 200, 300),
cat1=c("social", "social", "social"), cat2=c(NA, "search", "finance"),
cat3=c(NA, NA, "commerce"))
我想知道如何在不同类型的类别分析运行。例如,我将如何获得不同类别的平均价值,即“社交”或“金融”。每家公司最多可以有20个类别(每行不重复)。
的dplyr包是我正常去到GROUP_BY方法,但链接似乎并不多列
cat.test <- df %>%
group_by(cat1:cat2) %>%
summarise (avg = mean(is.na(worth)))
的代码产生一个度量的企业每个排列与多个类别的组合工作,而不是单独分类。在示例数据框架中,社交类别的总净值应为600,平均值为300.
我已经查看了多个教程,但还没有找到一个可以为group_by多列的教程。谢谢,让我知道如果我可以更清楚地提出这个问题。
[更新:编辑data.frame代码]
op!抱歉的人。我固定 – tom
不应该是600和平均200. 600/3 = 200? – thelatemail