2013-10-29 78 views
2

任何人都可以告诉我如何使用awk来计算两个单独列的总和或每个唯一ID的一列平均值。使用awk对每个唯一ID进行求和或求平均值

输入

chr1 3661532 3661533 0.0 5 0 chr1 3661529 3662079 NM_01011874  
chr1 3661534 3661535 0.2 5 1 chr1 3661529 3662079 NM_01011874  
chr1 3661537 3661538 0.0 5 0 chr1 3661529 3662079 NM_01011874 
chr1 3661559 3661560 0.0 6 0 chr1 3661529 3662079 NM_01011874 
chr2 4661532 4661533 0.0 8 0 chr1 4661532 4661533 NM_00175642  
chr2 6661534 6661535 0.2 5 2 chr1 6661534 6661535 NM_00175642  
chr2 2661537 2661538 0.0 5 0 chr1 2661537 2661538 NM_00175642 
chr2 9661559 9661560 0.0 7 0 chr1 9661559 9661560 NM_00175642 

输出,如果你能击穿为每个唯一的ID

NM_01011874 21 1 
NM_00175642 25 2 

或平均$ 4为每个唯一的ID(总结$ 5 $ 6)

NM_01011874 0.0476 
NM_00175642 0.08 

另外,解决方案的组成部分我将不胜感激。我是一位拥有最少生物信息学培训的分子生物学家。

回答

5

列5的总和和6每个ID:

awk '{sum5[$10] += $5; sum6[$10] += $6}; END{ for (id in sum5) { print id, sum5[id], sum6[id] } }' < /tmp/input 
NM_00175642 25 2 
NM_01011874 21 1 

解释:$ 10是ID字段中,$ 5和$ 6是第5列和6,我们建立2个阵列求和列5和6(它们是由字符串索引,所以我们可以使用id字段)。一旦我们处理了所有行/记录,我们遍历数组键(id字符串),并在该索引处打印该值。

平均柱4的每个ID:

awk '{sum4[$10] += $4; count4[$10]++}; END{ for (id in sum4) { print id, sum4[id]/count4[id] } }' < /tmp/input 
NM_00175642 0.05 
NM_01011874 0.05 

解释:非常相似的求和例子。我们为每个ID保留第4列的总和,以及为每个ID查看的记录数。最后,我们遍历ID并打印总和/计数。

我对awk没有太多的了解,我发现Perl对于小脚本更好。但this看起来是一个很好的起点。有示例脚本的更多页面的链接。