0
我有一个包含网络的tsv文件。这是一个片段。列0包含唯一ID,列1包含替代ID(不一定是唯一的)。那之后的每一列都包含一个'交互者'和一个互动分数。用非常特定的格式将tsv解析为python
11746909_a_at A1CF SHPRH 0.11081568 TRIM10 0.11914056
11736238_a_at ABCA5 ANKS1A 0.1333185 CCDC90B 0.14495682
11724734_at ABCB8 HYKK 0.09577321 LDB3 0.09845833
11723976_at ABCC8 FAM161B 0.15087105 ID1 0.14801268
11718612_a_at ABCD4 HOXC6 0.23559235 LCMT2 0.12867001
11758217_s_at ABHD17C FZD7 0.46334574 HIVEP3 0.24272481
因此,例如,A1CF
连接到SHPRH
和TRIM10
与分别0.11081568
和0.11914056
分数。我想这个数据转换成使用大熊猫这将是这样一个“平”的格式:
11746909_a_at A1CF SHPRH 0.11081568
TRIM10 0.11914056
11736238_a_at ABCA5 ANKS1A 0.1333185
CCDC90B 0.14495682
...... and so on........ ........ ....
注意,每行可以有(interactor, score)
双任意号码。
我试过将列0和1设置为索引,然后给列名称df.colnames = ['Interactor', Weight']*int(df.shape[1]/2)
然后使用pandas.groupby
,但到目前为止我的尝试还没有成功。任何人都可以提出一种方法来做到这一点?
你可能要刷新你的记忆[问产生一个输出数据帧]和[mcve]。 – boardrider