转换为每月在大熊猫数据帧

我有一个包含用户ID，观察日期一个数据帧DF（通常每季度频率，但也可以是不规则的）和特征值，例如：转换为每月在大熊猫数据帧

from util.Dates import Dates, to_date 
import pandas as pd 
df = pd.DataFrame(dict(
    RefIssuerId=[11590] * 3 + [115948] * 4, 
    AvailableDate=[to_date(d) for d in (20050613, 20050905, 20051214, 
        20040924, 20041101, 20050202,20050516)], 
     Characteristic=[0.06, 0.09, 0.07, 0.13, 0.09, 0.06, 0.04])) 

UserID  Date Characteristic 
115950 6/13/2005 0.06 
115950 9/5/2005 0.09 
115950 12/14/2005 0.07 
115948 9/24/2004 0.13 
115948 11/1/2004 0.09 
115948 2/2/2005 0.06 
115948 5/16/2005 0.04

我正在尝试将它上采样到用户组中的每月频率。也就是说，希望得到这样的不便（通过用户名和日期排序）

UserID Date Characteristic month_date 115950 6/13/2005 0.06 6/30/2005 115950 6/13/2005 0.06 7/31/2005 115950 6/13/2005 0.06 8/31/2005 115950 9/5/2005 0.09 9/30/2005 115950 9/5/2005 0.09 10/31/2005 115950 9/5/2005 0.09 11/30/2005 115950 12/14/2005 0.07 12/31/2005 115950 12/14/2005 0.07 1/31/2006 115950 12/14/2005 0.07 2/28/2006 115948 9/24/2004 0.13 9/30/2004 115948 9/24/2004 0.13 10/31/2004 115948 11/1/2004 0.09 11/30/2004 115948 11/1/2004 0.09 12/31/2004 115948 11/1/2004 0.09 1/31/2005 115948 2/2/2005 0.06 2/28/2005 115948 2/2/2005 0.06 3/31/2005 115948 2/2/2005 0.06 4/30/2005 115948 5/16/2005 0.04 5/31/2005 115948 5/16/2005 0.04 6/30/2005 115948 5/16/2005 0.04 7/31/2005

注意，因为下一个可日期是11/1/2004，它在升取样组产生的11/30/2004 month_date记录115948 9/24/2004 0.13被上取样只有两次。

试戴GROUPBY数据帧施加重采样：

newdf=df.groupby(['UserID']).resample("M",fill_method='ffill')

但这并不产生所需的结果。任何指导/建议非常感谢。

来源

2016-02-05 denglu

请张贴实际的代码来创建样本数据。有很多与你的问题相关的东西不能从你对数据框的模糊描述中推断出来。 – Goyo

我不明白最后2行输出'df'，你怎么得到它。你能解释一下吗？ – jezrael

您可以使用resample与reset_index：

import pandas as pd 

df_dg = pd.DataFrame(dict(
    UserID=[11590] * 3 + [115948] * 4, 
    Date=[20050613, 20050905, 20051214, 
        20040924, 20041101, 20050202,20050516], 
     Characteristic=[0.06, 0.09, 0.07, 0.13, 0.09, 0.06, 0.04]), columns=['UserID','Date','Characteristic']) 


df_dg['Date'] = pd.to_datetime(df_dg['Date'], format="%Y%m%d") 
print df_dg 
    UserID  Date Characteristic 
0 11590 2005-06-13   0.06 
1 11590 2005-09-05   0.09 
2 11590 2005-12-14   0.07 
3 115948 2004-09-24   0.13 
4 115948 2004-11-01   0.09 
5 115948 2005-02-02   0.06 
6 115948 2005-05-16   0.04 


df_dg['Date1'] = df_dg['Date'] 

newdf = df_dg.groupby('UserID').apply(lambda x: x.set_index('Date').resample('M', how='first',fill_method='ffill')).reset_index(drop=True, level=0).reset_index() 
newdf = newdf.rename(columns={'Date':'month_date', 'Date1':'Date'}) 
newdf = newdf[['UserID','Date','Characteristic','month_date']]

print newdf 
    UserID  Date Characteristic month_date 
0 11590 2005-06-13   0.06 2005-06-30 
1 11590 2005-06-13   0.06 2005-07-31 
2 11590 2005-06-13   0.06 2005-08-31 
3 11590 2005-09-05   0.09 2005-09-30 
4 11590 2005-09-05   0.09 2005-10-31 
5 11590 2005-09-05   0.09 2005-11-30 
6 11590 2005-12-14   0.07 2005-12-31 
7 115948 2004-09-24   0.13 2004-09-30 
8 115948 2004-09-24   0.13 2004-10-31 
9 115948 2004-11-01   0.09 2004-11-30 
10 115948 2004-11-01   0.09 2004-12-31 
11 115948 2004-11-01   0.09 2005-01-31 
12 115948 2005-02-02   0.06 2005-02-28 
13 115948 2005-02-02   0.06 2005-03-31 
14 115948 2005-02-02   0.06 2005-04-30 
15 115948 2005-05-16   0.04 2005-05-31

来源

2016-02-08 14:26:31 jezrael

它是如何工作的？ – jezrael

jezrael，太棒了，非常感谢...这似乎是工作...我知道我在重采样语法做错了。显然，为了重新采样工作，在我可以应用重采样方法之前，首先在组内设置日期索引是非常重要的。你认为如果我首先将日期索引设置为groupby框架对象（像df_dg.groupby（'UserID'）.set_index（'Date'）那样设置日期索引，然后对它使用.resample，这样做会不会起作用？我不是100％肯定我理解你的例子中的apply方法...再次感谢 – denglu

我认为你必须在'apply'中使用'set_index'，因为'resample'只能用于'DatetimeIndex，TimedeltaIndex或PeriodIndex'，'apply'非常容易 - 它意味着获取组和应用一些函数，通常使用'lambda'。 – jezrael

转换为每月在大熊猫数据帧

回答

相关问题