2016-09-17 37 views
1

我有以下通式结构之“长”格式大熊猫据帧:大熊猫结合行和维护列顺序

id,date,color,size,density 
1,201201,val1,val2,val3 
1,201301,val1,val2,val3 
1,201301,val1,val2,val3 
2,201201,val1,val2,val3 
2,201202,val1,val2,val3 

新的“宽”的格式,我希望创造的是:

id,color_1,size_1,density_1,color_2,size_2,density_2,color_3,size_3,density_3 
1,val1,val2,val3,val1,val2,val3,val1,val2,val3 
2,val1,val2,val3,val1,val2,val3 

其中保留了列的原始行顺序,但现在按照id将单行中的升序日期按顺序排列。当我尝试使用pd.pivot变体时,它不保留列顺序。也许是concat方法?任何建议是受欢迎的。

UPDATE:

我做了这方面的一些进展使这里是我的新的基础数据帧:

id, date, feature_vector (parens for clarity, not in data, comma seperated string field) 
1,2012-01-01,(0,1,0,0,0,1) 
1,2013-01-01,(0,0,1,0,0,1) 
1,2013-01-02,(0,1,0,1,0,1) 
2,2012-01-11,(0,1,0,0,1,1) 
2,2012-02-11,(0,1,1,0,0,1) 

我试图创建以下文件:

id, feature_vector 
1,(0,1,0,0,0,1,0,0,1,0,0,1,0,1,0,1,0,1) 
2,(0,1,0,0,1,1,0,1,1,0,0,1) 

我只是试图按照日期顺序连接特征向量。

回答

1

你可以使用concat方法,但是我试着制作你的长数据框,并且发现它在你的玩具例子中很笨重和脆弱。我会建议使用groupby方法。

grouped = df.sort('date', ascending=True).groupby('id') 

如果你需要级联的版本,试试这个:

columns = ['date', 'color', 'size', 'density'] 

first = grouped.nth(0) 
first = first[columns] 
first.rename(columns=lambda x: '{}_1'.format(x), inplace=True) 

second = grouped.nth(1) 
second = second[columns] 
second.rename(columns=lambda x: '{}_2'.format(x), inplace=True) 

new_df = pd.concat([first, second], axis=1) 
+0

不幸的是,一个GROUPBY没有得到我,我需要在这里我想。这些值不会被聚合,“.sort”已被弃用。 – Pylander

+0

我一直在修改这个做了更新。我认为这应该是一个更简单的问题。让我知道你的想法,如果你会如此善良。感谢你的协助。 – Pylander

+0

你可以使用sort_values方法,它会有相同的行为。你知道你是如何在一个单一的ID? –