合并多个列的数据帧

我有40列（列0至39），一个数据帧，我想他们四人组在一个时间：合并多个列的数据帧

import numpy as np 
import pandas as pd 
df = pd.DataFrame(np.random.binomial(1, 0.2, (100, 40)))

new_df["0-3"] = df[0] + df[1] + df[2] + df[3] 
new_df["4-7"] = df[4] + df[5] + df[6] + df[7] 
... 
new_df["36-39"] = df[36] + df[37] + df[38] + df[39]

我能做到这一点在一个单独的陈述中（或者比单独汇总它们更好的方式）？新DataFrame中的列名称并不重要。

来源

2015-09-22 ayhan

我不知道这是否是最好的一段路要走，但我最终使用多指标：

df.columns = pd.MultiIndex.from_product((range(10), range(4))) 
new_df = df.groupby(level=0, axis=1).sum()

更新：可能是因为指数的，这是比其它更快。如果考虑构建索引的时间，可以更快地完成df.groupby(df.columns//4, axis=1).sum()。但是，索引更改是一次性操作，我更新了df并将总和数千次，因此使用MultiIndex对我来说速度更快。

来源

2015-09-22 20:21:22 ayhan

您可以选择出行和总和在行轴上，就像这样。

df['0-3'] = df.loc[:, 0:3].sum(axis=1)

几件事情要注意：

总结这样会忽略数据缺失而df[0] + df[1] ...传播它。如果您想要这种行为，请通过skipna=False。
不一定有任何性能优势，实际上可能会慢一点。

来源

2015-09-22 17:21:09 chrisb

考虑一个列表理解：

df = # your data 
df_slices = [df.iloc[x:x+4] for x in range(10)]

或者更一般

df_slices = [df.iloc[x:x+4] for x in range(len(df.columns)/4)]

来源

2015-09-22 21:00:23 Alex

这里的另一种方式来做到这一点：

new_df = df.transpose() 
new_df['Group'] = new_df.index/4 
new_df = new_df.groupby('Group').sum().transpose()

注意，分频操作这里是integer division ，而不是浮点分割。

来源

2015-09-22 21:09:51 DalekSec

合并多个列的数据帧

回答

相关问题