我有一个处理来自英国实践的数据的数据框。 原始数据为http://datagov.ic.nhs.uk/T201207.exe。我已经将它提交到PCT级别的数据框架中,由PCT和最常见的处方(“项目”栏中的降序)排序。通过另一列中的因子提取列中的前50位
pct sha chem.code items nic act.cost
32360 5ZW Q39 0212000Y0 12421 17811.40 16888.21
28769 5ZW Q39 0209000A0 8741 7834.43 7554.72
4439 5ZW Q39 0103050P0 7733 21566.51 20210.05
...
82763 5D7 Q30 0603020L0 1 1.08 1.13
152673 5D7 Q30 1502010C0 1 0.92 0.85
5149 5D7 Q30 0104020N0 1 0.70 0.68
149501 5D7 Q30 1311060I0 1 0.50 0.49
有151 pct的和每个有超过1000项。我想提取每个pct的前50项。我知道我可以写一个for
循环,只是遍历pct的级别,但这不是R
。我还没有想出如何使用apply
或sapply
来完成关卡上的子集。这似乎更好地获取整列而不是获取行的子集。
链接是一个可执行文件,而不是您的数据。 – Arun 2013-02-24 14:04:46
[检查出来](http://stackoverflow.com/questions/14800161/how-to-find-the-top-n-values-by-group-or-within-category-groupwise-in-an-r -dat):) – 2013-02-24 14:10:37
@Arun可执行文件是一个'self-expanding zip',它包含2个csv文件,它们是数据。感谢NHS。 – Suz 2013-02-24 14:56:27