GROUPBY和使用自定义功能

从这个问题，下面就进行逐行计算GROUPBY和使用自定义功能

col_1 col_2 col_3 col_4 
a  X  5  1 
a  Y  3  2 
a  Z  6  4 
b  X  7  8 
b  Y  4  3 
b  Z  6  5

而且我想，在COL_1每个值，使用col_3和col_4（以及更多列）中的值对col_2中的X和Z应用函数，并使用这些值创建一个新行。所以输出如下：

col_1 col_2 col_3 col_4 
a  X  5  1 
a  Y  3  2 
a  Z  6  4 
a  NEW  *  * 
b  X  7  8 
b  Y  4  3 
b  Z  6  5 
b  NEW  *  *

其中*是函数的输出。

原来的问题（只需要一个简单的加法）得到的回答是：

new = df[df.col_2.isin(['X', 'Z'])]\ 
    .groupby(['col_1'], as_index=False).sum()\ 
    .assign(col_2='NEW') 

df = pd.concat([df, new]).sort_values('col_1')

现在我正在寻找一种方式来使用自定义功能，如(X/Y)或((X+Y)*2)，而不是X+Y。我如何修改此代码以符合我的新要求？

来源

2017-09-27 Saturate

的可能的复制[蟒 - 通过并添加新的行组，其是其他行的计算]（https://stackoverflow.com/questions/46446863/python-group-by-and-add-new-其他行的行计算） – zipa

在看到coldspeed的答案之前，我有你正在寻找的解决方案。 – Dark

不是重复的@zipa，它是从这个问题开始的。 Coldspeed回答了这个问题，建议为增加的难度创造一个新问题。 – Saturate

我不知道如果这是你在找什么，但在这里有云：

def f(x): 
    y = x.values 
    return y[0]/y[1] # replace with your function

而且，改变new是：

new = df[df.col_2.isin(['X', 'Z'])]\ 
      .groupby(['col_1'], as_index=False)[['col_3', 'col_4']]\ 
      .agg(f).assign(col_2='NEW') 

    col_1  col_3 col_4 col_2 
0  a 0.833333 0.25 NEW 
1  b 1.166667 1.60 NEW 

df = pd.concat([df, new]).sort_values('col_1') 

df 
    col_1 col_2  col_3 col_4 
0  a  X 5.000000 1.00 
1  a  Y 3.000000 2.00 
2  a  Z 6.000000 4.00 
0  a NEW 0.833333 0.25 
3  b  X 7.000000 8.00 
4  b  Y 4.000000 3.00 
5  b  Z 6.000000 5.00 
1  b NEW 1.166667 1.60

我正在在f的信仰飞跃，并假设这些列在他们击中功能之前被排序。如果情况并非如此，则需要额外致电sort_values：

df = df.sort_values(['col_1, 'col_2'])

应该这样做。

来源

2017-09-27 15:14:45

这太好了。 ;我知道你会想出这个。 – Dark

@Bharathshetty是的..你原来的答案是好的，但没有解决OP的新要求:-) –

现在你知道它为什么被删除哈哈。 – Dark

def foo(df): 
    # Expand variables into dictionary. 
    d = {v: df.loc[df['col_2'] == v, ['col_3', 'col_4']] for v in df['col_2'].unique()} 

    # Example function: (X + Y) * 2 
    result = (d['X'].values + d['Y'].values) * 2 

    # Convert result to a new dataframe row. 
    result = result.tolist()[0] 
    df_new = pd.DataFrame(
     {'col_1': [df['col_1'].iat[0]], 
     'col_2': ['NEW'], 
     'col_3': result[0], 
     'col_4': result[1]}) 
    # Concatenate result with original dataframe for group and return. 
    return pd.concat([df, df_new]) 

>>> df.groupby('col_1').apply(lambda x: foo(x)).reset_index(drop=True) 
    col_1 col_2 col_3 col_4 
0  a  X  5  1 
1  a  Y  3  2 
2  a  Z  6  4 
3  a NEW  16  6 
4  b  X  7  8 
5  b  Y  4  3 
6  b  Z  6  5 
7  b NEW  22  22

来源

2017-09-27 15:22:52 Alexander

编辑这个问题，因为它很不清楚。请看看它并重新访问。 –

看起来不错。 :-) –

GROUPBY和使用自定义功能

回答

相关问题