我有一个电影数据框,其中包含电影名称,它们各自的类型和矢量表示(numpy数组)。在熊猫数据框和平均数组中按列分组
ID Year Title Genre Word Vector
1 2003.0 Dinosaur Planet Documentary [-0.55423898, -0.72544044, 0.33189204, -0.1720...
2 2004.0 Isle of Man TT 2004 Review Sports & Fitness [-0.373265237, -1.07549703, -0.469254494, -0.4...
3 1997.0 Character Foreign [-1.57682264, -0.91265768, 2.43038678, -0.2114...
4 1994.0 Paula Abdul's Get Up & Dance Sports & Fitness [0.3096168, -0.57186663, 0.39008939, 0.2868615...
5 2004.0 The Rise and Fall of ECW Sports & Fitness [0.17175879, -2.38005066, -0.45771399, 1.32608...
我想组按流派,并得到各流派的平均向量表示(在体裁每部电影矢量分量明智的平均值)。
我第一次尝试:
movie_df.groupby(['Genre']).mean()
但内置的均值函数不能采取numpy的阵列的平均值。
我试图创造我自己的函数来进行,然后将其应用到各组,但我不知道这是用正确适用:
def vector_average(group):
series_to_array = np.array(group.tolist())
return np.mean(series_to_array, axis = 0)
movie_df.groupby(['Genre']).apply(vector_average)
任何指针将不胜感激!
可否请您打印出'df.head(5)'和它贴在这里? –
是的,但在问题中。 –
我不熟悉提供数据框样本的最佳方式 - 此处的建议也将不胜感激! – Matt