df
Beginning1 Protein2 Protein3 Protein4 Biomarker1
Pathway3 A G NA NA F
Pathway6 A G NA NA E
Pathway1 A B C D F
Pathway2 A B H NA F
Pathway4 A B C D E
Pathway5 A B H NA F
我想重新排列上面的数据框(df),以便在它们的蛋白质路径中共享最大相似性的路径(又名最大相似性在列2:4中)被排序为彼此相邻。如何根据行的相似性对数据帧进行排序和排序
更清楚,我想输出看起来像这样:
newdf
Beginning1 Protein2 Protein3 Protein4 Biomarker1
Pathway6 A G NA NA E
Pathway3 A G NA NA F
Pathway5 A B H NA E
Pathway2 A B H NA F
Pathway4 A B C D E
Pathway1 A B C D F
一个人怎么会去这样做呢?我已经尝试过包括独特(df)在内的各种变体,但目前为止还没有任何工作。
此外,虽然按非NA字符的数量排序可用于此数据集,但我将分析的实际数据集将具有数百个具有相同步骤数量的路径。
请勿发布数据图片。保持您的数据在[可重现的格式](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) – MrFlick
谢谢!我是Stack Overflow的新手,不确定如何在问题中输入我的数据框。 –
虽然不是所有情况下都不行,但可以使用基本的R'order'函数对数据进行排序:'df [with(df,order(Beginning1,Protein2,Protein3,Protein4)),]' 。 – lmo