2016-08-09 31 views
2

我从下面的熊猫数据框开始,我希望每天都进行分组,并创建一个名为'label'的新列,它用一个连续的数字标记组。我该怎么做呢?如何为熊猫群分配一个顺序标签?

df = pd.DataFrame({'val': [10,40,30,10,11,13]}, index=pd.date_range('2016-01-01 00:00:00', periods=6, freq='12H')) 
# df['label'] = df.groupby(pd.TimeGrouper('D')) # what do i do here??? 
print df 

输出:

     val 
2016-01-01 00:00:00 10 
2016-01-01 12:00:00 40 
2016-01-02 00:00:00 30 
2016-01-02 12:00:00 10 
2016-01-03 00:00:00 11 
2016-01-03 12:00:00 13 

所需的输出:

    val label 
2016-01-01 00:00:00 10 1 
2016-01-01 12:00:00 40 1 
2016-01-02 00:00:00 30 2 
2016-01-02 12:00:00 10 2 
2016-01-03 00:00:00 11 3 
2016-01-03 12:00:00 13 3 
+0

仅供参考,我需要因为'sklearn.cross_validation.LabelKFold' –

回答

4

试试这个:

df = pd.DataFrame({'val': [10,40,30,10,11,13]}, index=pd.date_range('2016-01-01 00:00:00', periods=6, freq='12H')) 

如果你只是想按日期:

df['label'] = df.groupby(df.index.date).grouper.group_info[0] + 1 
print(df) 

要由时间组更普遍,你可以用TimeGrouper:

df['label'] = df.groupby(pd.TimeGrouper('D')).grouper.group_info[0] + 1 
print(df) 

上面两种情况,应该给你以下几点:

     val label 
2016-01-01 00:00:00 10  1 
2016-01-01 12:00:00 40  1 
2016-01-02 00:00:00 30  2 
2016-01-02 12:00:00 10  2 
2016-01-03 00:00:00 11  3 
2016-01-03 12:00:00 13  3 

我认为这是无证(或难至少找到)。退房:

Get group id back into pandas dataframe

更多的讨论。

0

也许更简单,直观的方法是这样的:

df['label'] = df.groupby(df.index.day).keys 
+0

,这一切与'pd.TimeGrouper()'寿这项工作?我确实需要更广义的版本,以防我一次2或5天分组 –