熊猫：丢弃不要让一个完整季度

说我有以下的数据帧，其中包括一系列的“X”熊猫：丢弃不要让一个完整季度

df = pd.DataFrame({"Date":["201501", "201502", "201503", "201504", "201505", "201506", 
          "201507", "201508", "201509", "201510", "201511", "201512"], 
          "X":[np.nan, np.nan, 100, 101,102,101, np.nan, 104, 103, 104, 
           107, 110]}).set_index("Date") 

In [32]:df 
Out[32]: 
      X 
Date   
201501 NaN 
201502 NaN 
201503 100.0 
201504 101.0 
201505 102.0 
201506 101.0 
201507 NaN 
201508 104.0 
201509 103.0 
201510 104.0 
201511 107.0 
201512 110.0

我需要的是将降大任月度观察：”不是个月的观察意见除了整整四分之一的数据。在上面的例子中，我需要最后一个DataFrame，它是：Q1 = M1，M2，M3，Q2 = M4，M5，M6，Q3 = M7 M8 M9 Q4 M10 M11 M12 ：

In [32]:df 
Out[34]: 
      X 
Date   
201501  NaN 
201502  NaN 
201503  NaN 
201504 101.0 
201505 102.0 
201506 101.0 
201507  NaN 
201508  NaN 
201509  NaN 
201510 104.0 
201511 107.0 
201512 110.0

任何帮助？如果缺少的观察结果位于数据帧的末尾，我发现了一种做我所需要的方法，但我坚持如何处理中间缺失的值。

来源

2016-12-16 measure_theory

的首先想到的是我想到的是重新索引数据框，并在其上设置一个方便的布尔条件。 –

您可以重新取样和计数不在楠的，并基于该条件：

df[df.resample('Q').transform('count') == 3] 
Out: 
       X 
Date    
2015-01-01 NaN 
2015-02-01 NaN 
2015-03-01 NaN 
2015-04-01 101.0 
2015-05-01 102.0 
2015-06-01 101.0 
2015-07-01 NaN 
2015-08-01 NaN 
2015-09-01 NaN 
2015-10-01 104.0 
2015-11-01 107.0 
2015-12-01 110.0

这假定索引是一个日期时间指数。你可以用df.index = pd.to_datetime(df.index, format='%Y%m')转换。

来源

2016-12-16 15:31:35 ayhan

完美，谢谢（再次） –

不客气。 :) – ayhan

另一种选择，可以通过将索引转换为四分之一周期创建一组变量，然后检查每个组是否有基于在创建子集的逻辑矢量任何缺少的值：

index = (df.groupby(pd.to_datetime(df.index, format = "%Y%m").to_period("Q")) 
      .transform(lambda g: g.isnull().any()).X) 

df.loc[index, "X"] = np.nan 

df 
#   X 
#Date 
#201501 NaN 
#201502 NaN 
#201503 NaN 
#201504 101.0 
#201505 102.0 
#201506 101.0 
#201507 NaN 
#201508 NaN 
#201509 NaN 
#201510 104.0 
#201511 107.0 
#201512 110.0

来源

2016-12-16 15:37:56 Psidom

熊猫：丢弃不要让一个完整季度

回答

相关问题