我有一个巨大的.csv
文件是这样的:如何从混合和凌乱的CSV文件构建数据矩阵?
Transcript Id Gene Id(name) Mirna Name miTG score
ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p 1
UTR3 21:30717114-30717142 0.05994568
UTR3 21:30717414-30717442 0.13591267
ENST00000345080 ENSG00000187772 (LIN28B) hsa-let-7a-5p 1
UTR3 6:105526681-105526709 0.133514751
,我想从它建立这样一个矩阵:
Transcript Id Gene Id(name) Mirna Name miTG score UTR3 MRE_score
ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p 1 21:30717414-30717442 0.13591267
我要添加三个新列进我叫UTR3
新的矩阵,和CDS
。
每Gene ID
(例如ENST00000286800
),也有在原有的矩阵数UTR3
(这里有两个UTR3
的对ENST00000286800
,和一个UTR3
为ENST00000345080
)我们选择UTR3
在第三列中的最高分。在新矩阵中,每Gene ID
的UTR3
的值将是原始矩阵第二列中UTR3
的值。
任何机构能帮助我重塑这些数据并构建我的新矩阵吗?
你陷入了相当痛苦的境地;责任在于什么或者谁创建了“csv”文件。你对创建它的过程有任何控制吗?修复它听起来像是一个更好的主意(如果可以的话)。如果是这样,我们可以告诉你该文件应该是什么样子,这样你就可以使用'read.csv'轻松加载它,并筛选出最好的'UTR3'记录基因。 – flodel
不,别人创造它,我对它没有任何控制! P – user2806363