2017-04-21 163 views
1

我有一个熊猫的数据帧如下:大熊猫长到宽多列重塑

request_id  crash_id   counter num_acc_x num_acc_y num_acc_z 
    745109.0 670140638.0  0  0.010  0.000  -0.045 
    745109.0 670140638.0  1  0.016  -0.006  -0.034 
    745109.0 670140638.0  2  0.016  -0.006  -0.034 

我的ID瓦尔是:“REQUEST_ID”和“CRASH_ID”,目标瓦尔是nu_acc_x,num_acc_y和num_acc_z 我会喜欢创建一个新的DataFrame,其中目标变量被重新整形,即增加max(counter)* 3个新变量,如num_acc_x_0,num_acc_x_1,... num_acc_y_0,num_acc_y_1,... num_acc_z_0,num_acc_z_1可能没有枢轴作为最终结果(我想要一个真正的DataFrame在R)。

预先感谢关注

回答

2

我认为你需要set_indexunstack,最后从MultiIndex通过map创建列名:

df = df.set_index(['request_id','crash_id','counter']).unstack() 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034 

与aggreagting重复另一种解决方案与pivot_table

df = df.pivot_table(index=['request_id','crash_id'], columns='counter', aggfunc='mean') 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034 

df = df.groupby(['request_id','crash_id','counter']).mean().unstack() 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034 
+0

差不多,因为输出不会添加计数器到列的名称。我需要以下名称的列:num_acc_x _1,num_acc_x_2,...和num_acc_y和num_acc_z同样保留request_id crash_id作为初始列 –

+0

嗯,然后使用'df ['mycounter'] = df.groupby(['request_id ','crash_id'])。cumcount()+ 1'进行计数。并将'df = df.set_index(['request_id','crash_id','counter'])。unstack()'改为'df = df.set_index(['request_id','crash_id','mycounter']) .unstack()' – jezrael