2017-04-24 31 views
0

我有简单的视频的观看次数数据集:分组到二维数组中的熊猫

df.head() 
Out[10]: 
       video_id views 
datetime      
2017-04-07 ---9wpGBsr4 1479.0 
2017-04-08 ---9wpGBsr4 1883.0 
2017-04-09 ---9wpGBsr4 2021.0 
2017-04-10 ---9wpGBsr4 2083.0 
2017-04-11 ---9wpGBsr4 2127.0 

我每部影片计算周报观点:

resDf = df.groupby(['video_id', pd.TimeGrouper('W')]).sum() 

所以,我必须多指数VIDEO_ID,日期。现在我想要获得每个视频或2D numpy阵列视图的numpy数组列表(数据集很大)。

现在我做:

resDf2 = resDf.reset_index().set_index('datetime') 
resultList = list(resDf2.groupby('video_id')['views'].apply(pd.DataFrame.as_matrix)) 

我认为这是一个更好的,更快的方式。你能帮我吗?

回答

0

你的例子中你想要的输出是什么?这是你在追求什么?

df.groupby(['video_id', pd.TimeGrouper('W')]).sum().values 
Out[414]: 
array([[ 5383.], 
     [ 4210.]]) 
+0

包含视频每周视图的数组列表。该列表中的每一行 - 视频视图。该阵列中的每个元素 - 下周的该视频的视图。 –