我有data.frame,它的开始低于:R:如何通过data.frame删除数据过滤的条目
gene snp pval best_snp best_pval
1 ENSG00000007341 rs2932538 5.6007 rs17030613 10.0542
2 ENSG00000064419 rs10488631 7.7461 rs4728142 24.6101
3 ENSG00000064419 rs12531711 7.7449 rs4728142 24.6101
4 ENSG00000064419 rs12537284 4.5544 rs4728142 24.6101
5 ENSG00000064666 rs3764650 12.3401 rs3752246 5.4001
6 ENSG00000072682 rs10479002 5.0141 rs12521868 21.1550
如图所示,在2-4行相同的基因是重复。对于重复的基因,我只想保留第行的best_snp
和best_pval
的值,即出现基因第一个,因此第2行;和第3行& 4我想删除best_snp
和best_pval
值,因为它与上面相同。
如果一个基因没有重复,那么就把它保留原样。
请记住,该表比所示的要大得多,并且这些基因在随机位置重复。
这里的任务是针对每个组,当组数太多(其中只有少数重复条目)时,可能效率不高。 – Arun