多维/嵌套数据帧/数据集/面板中大熊猫

我想存储在大熊猫数据帧或面板某些多维数据，使得我想能够返回例如：多维/嵌套数据帧/数据集/面板中大熊猫

所有次为跑步者，争夺赛A A
所有时间（和名称）为某年说2015年

实例数据会是这个样子，请注意，并非所有参赛者将对所有数据几年或所有的比赛。

任何人都可以建议一个很好的方式来做到这一点与熊猫或任何其他方式？

Name  | Gender | Age 
Runner A | Male | 35 
    Race A 
     Year | Time  
     2015 | 2:35:09 
     2014 | 2:47:34 
     2013 | 2:50:12 
    Race B 
     Year | Time 
     2013 | 1:32:07 

Runner B | Male | 29 
    Race A 
     Year | Time 
     2015 | 3:05:56 

Runner C | Female | 32 
    Race B 
     Year | Time 
     1998 | 1:29:43

来源

2016-06-10 Danwise

我不明白为什么这需要多索引，为什么不能成为一个专栏和一年的赛跑？ – EdChum

感谢@EdChum，这可能仍然是最好的选择，但我试图避免在每一行中存储所有Runner Profile数据（例如性别，年龄等）。 – Danwise

年龄是否会针对比赛进行时的具体情况或赛跑者的当前状态？ – piRSquared

我认为你可以使用Multiindex然后slicers选择数据：

import pandas as pd 

df = pd.DataFrame({'Time': {('Runner A', 'Male', 35, 'Race A', 2014): '2:47:34', ('Runner C', 'Female', 32, 'Race B', 1998): '1:29:43', ('Runner B', 'Male', 29, 'Race A', 2015): '3:05:56', ('Runner A', 'Male', 35, 'Race A', 2013): '2:50:12', ('Runner A', 'Male', 35, 'Race B', 2013): '1:32:07', ('Runner A', 'Male', 35, 'Race A', 2015): '2:35:09'}}) 
print (df) 
            Time 
Runner A Male 35 Race A 2013 2:50:12 
          2014 2:47:34 
          2015 2:35:09 
        Race B 2013 1:32:07 
Runner B Male 29 Race A 2015 3:05:56 
Runner C Female 32 Race B 1998 1:29:43 

#index has to be fully lexsorted 
df.sort_index(inplace=True) 
print (df) 
            Time 
Runner A Male 35 Race A 2013 2:50:12 
          2014 2:47:34 
          2015 2:35:09 
        Race B 2013 1:32:07 
Runner B Male 29 Race A 2015 3:05:56 
Runner C Female 32 Race B 1998 1:29:43 

idx = pd.IndexSlice 
print (df.loc[idx['Runner A',:,:,'Race A',:],:]) 
           Time 
Runner A Male 35 Race A 2013 2:50:12 
         2014 2:47:34 
         2015 2:35:09 

print (df.loc[idx[:,:,:,'Race A',2015],:]) 
           Time 
Runner A Male 35 Race A 2015 2:35:09 
Runner B Male 29 Race A 2015 3:05:56

来源

2016-06-10 07:26:21 jezrael

这看起来像它会完美的工作。谢谢！ – Danwise

简单的方法：

runners = pd.DataFrame(
    [ 
     ['Bob', 'Male', 1980], 
     ['Tom', 'Male', 1986], 
     ['Amy', 'Female', 1966], 
    ], 
    columns=['Name', 'Gender', 'BirthYear'] 
) 

races = pd.DataFrame(
    [ 
     ['A', 2015, 'Bob', '2:35:09'], 
     ['A', 2014, 'Bob', '2:47:34'], 
     ['A', 2013, 'Bob', '2:50:12'], 
     ['B', 2013, 'Bob', '1:32:07'], 
     ['A', 2015, 'Tom', '3:05:56'], 
     ['B', 1998, 'Amy', '1:29:43'], 
    ], 
    columns=['Race', 'Year', 'Name', 'Time'] 
) 


print races.loc[(races.Name == 'Bob') & (races.Race == 'A')][['Time']] 
print 
print races.loc[(races.Year == 2015) & (races.Race == 'A')][['Name', 'Time']] 

     Time 
0 2:35:09 
1 2:47:34 
2 2:50:12 

    Name  Time 
0 Bob 2:35:09 
4 Tom 3:05:56

找回所有数据

df = races.merge(runners)

GET年龄在外部e时间

df['Age'] = df.Year - df.BirthYear 
print df 

    Race Year Name  Time Gender BirthYear Age 
0 A 2015 Bob 2:35:09 Male  1980 35 
1 A 2014 Bob 2:47:34 Male  1980 34 
2 A 2013 Bob 2:50:12 Male  1980 33 
3 B 2013 Bob 1:32:07 Male  1980 33 
4 A 2015 Tom 3:05:56 Male  1986 29 
5 B 1998 Amy 1:29:43 Female  1966 32

来源

2016-06-10 07:57:14 piRSquared

感谢@piRSquared，我试图避免在每一行中存储所有Runner Profile数据（例如性别，年龄等），但这仍然是一个选项。 – Danwise

@Danwise了解。我会张贴别的东西。 – piRSquared

更新了一个不同的想法。 – piRSquared

多维/嵌套数据帧/数据集/面板中大熊猫

回答

相关问题