大熊猫长到宽多列重塑

我有一个熊猫的数据帧如下：大熊猫长到宽多列重塑

request_id  crash_id   counter num_acc_x num_acc_y num_acc_z 
    745109.0 670140638.0  0  0.010  0.000  -0.045 
    745109.0 670140638.0  1  0.016  -0.006  -0.034 
    745109.0 670140638.0  2  0.016  -0.006  -0.034

我的ID瓦尔是：“REQUEST_ID”和“CRASH_ID”，目标瓦尔是nu_acc_x，num_acc_y和num_acc_z 我会喜欢创建一个新的DataFrame，其中目标变量被重新整形，即增加max（counter）* 3个新变量，如num_acc_x_0，num_acc_x_1，... num_acc_y_0，num_acc_y_1，... num_acc_z_0，num_acc_z_1可能没有枢轴作为最终结果（我想要一个真正的DataFrame在R）。

预先感谢关注

来源

2017-04-21 Giorgio Spedicato

我认为你需要set_index与unstack，最后从MultiIndex通过map创建列名：

df = df.set_index(['request_id','crash_id','counter']).unstack() 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034

与aggreagting重复另一种解决方案与pivot_table：

df = df.pivot_table(index=['request_id','crash_id'], columns='counter', aggfunc='mean') 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034

df = df.groupby(['request_id','crash_id','counter']).mean().unstack() 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034

来源

2017-04-21 08:16:24 jezrael

差不多，因为输出不会添加计数器到列的名称。我需要以下名称的列：num_acc_x _1，num_acc_x_2，...和num_acc_y和num_acc_z同样保留request_id crash_id作为初始列 –

嗯，然后使用'df ['mycounter'] = df.groupby（['request_id '，'crash_id']）。cumcount（）+ 1'进行计数。并将'df = df.set_index（['request_id'，'crash_id'，'counter']）。unstack（）'改为'df = df.set_index（['request_id'，'crash_id'，'mycounter']） .unstack（）' – jezrael

大熊猫长到宽多列重塑

回答

相关问题