构建大熊猫数据帧在嵌套字典

假设我有一个嵌套词典 'user_dict' 与结构：构建大熊猫数据帧在嵌套字典

级别1：用户ID（长整型）

级别2：类别（字符串）

级别3：什锦属性（浮筒，整数，等等。）

例如，这本词典的条目是：

user_dict[12] = { 
    "Category 1": {"att_1": 1, 
        "att_2": "whatever"}, 
    "Category 2": {"att_1": 23, 
        "att_2": "another"}}

在“user_dict”每个项目都有相同的结构和“user_dict”包含了大量的，我想喂到大熊猫数据帧的项目，构建从系列属性。在这种情况下，分层索引对于此目的会很有用。

具体来说，我的问题是，是否存在一种方法来帮助DataFrame构造函数理解该系列应该从字典中的“级别3”的值构建？

如果我尝试类似：

df = pandas.DataFrame(users_summary)

的项目在“1级”（用户ID的）被视为列，这是我所想达到（有用户ID为索引相反）。

我知道我可以在遍历字典条目后构建系列，但是如果有更直接的方法，这将非常有用。一个类似的问题是询问是否可以从文件中列出的json对象构造一个pandas DataFrame。

来源

2012-11-26 vladimir montealegre

熊猫MultiIndex由元组列表组成。所以最自然的方法是重塑你的输入字典，使它的键是你需要的多索引值对应的元组。然后，你可以建造使用pd.DataFrame.from_dict您的数据框，使用选项orient='index'：

user_dict = {12: {'Category 1': {'att_1': 1, 'att_2': 'whatever'}, 
        'Category 2': {'att_1': 23, 'att_2': 'another'}}, 
      15: {'Category 1': {'att_1': 10, 'att_2': 'foo'}, 
        'Category 2': {'att_1': 30, 'att_2': 'bar'}}} 

pd.DataFrame.from_dict({(i,j): user_dict[i][j] 
          for i in user_dict.keys() 
          for j in user_dict[i].keys()}, 
         orient='index') 


       att_1  att_2 
12 Category 1  1 whatever 
    Category 2  23 another 
15 Category 1  10  foo 
    Category 2  30  bar

另一种方法是通过连接组件dataframes建立自己的数据框起来：

user_ids = [] 
frames = [] 

for user_id, d in user_dict.iteritems(): 
    user_ids.append(user_id) 
    frames.append(pd.DataFrame.from_dict(d, orient='index')) 

pd.concat(frames, keys=user_ids) 

       att_1  att_2 
12 Category 1  1 whatever 
    Category 2  23 another 
15 Category 1  10  foo 
    Category 2  30  bar

来源

2012-11-27 10:05:17

有没有一种合理的方式来推广这个工作与任意深度不整齐的列表？例如列表到任意深度，其中一些分支可能比其他分支短，当较短的分支未达到结尾时使用None或nan？ – naught101

你看过熊猫JSON支持（io工具）和规范化吗？ http://pandas.pydata.org/pandas-docs/dev/io.html#normalization –

拯救我的生命!!!!!!!!!!学习很多！谢谢 – Wen

所以我用一个用于循环遍历字典的for循环，但是我发现有一件事情更快地转化为面板，然后转换为数据框。假设你有一个字典d

import pandas as pd 
d 
{'RAY Index': {datetime.date(2014, 11, 3): {'PX_LAST': 1199.46, 
'PX_OPEN': 1200.14}, 
datetime.date(2014, 11, 4): {'PX_LAST': 1195.323, 'PX_OPEN': 1197.69}, 
datetime.date(2014, 11, 5): {'PX_LAST': 1200.936, 'PX_OPEN': 1195.32}, 
datetime.date(2014, 11, 6): {'PX_LAST': 1206.061, 'PX_OPEN': 1200.62}}, 
'SPX Index': {datetime.date(2014, 11, 3): {'PX_LAST': 2017.81, 
'PX_OPEN': 2018.21}, 
datetime.date(2014, 11, 4): {'PX_LAST': 2012.1, 'PX_OPEN': 2015.81}, 
datetime.date(2014, 11, 5): {'PX_LAST': 2023.57, 'PX_OPEN': 2015.29}, 
datetime.date(2014, 11, 6): {'PX_LAST': 2031.21, 'PX_OPEN': 2023.33}}}

命令

pd.Panel(d) 
<class 'pandas.core.panel.Panel'> 
Dimensions: 2 (items) x 2 (major_axis) x 4 (minor_axis) 
Items axis: RAY Index to SPX Index 
Major_axis axis: PX_LAST to PX_OPEN 
Minor_axis axis: 2014-11-03 to 2014-11-06

其中pd.Panel（d）[项目]产生一个数据帧

pd.Panel(d)['SPX Index'] 
2014-11-03 2014-11-04 2014-11-05 2014-11-06 
PX_LAST 2017.81 2012.10 2023.57 2031.21 
PX_OPEN 2018.21 2015.81 2015.29 2023.33

然后你可以敲命令to_frame （）把它变成一个数据框。我还使用reset_index以将主轴和副轴转换为列，而不是将它们作为索引。

pd.Panel(d).to_frame().reset_index() 
major minor  RAY Index SPX Index 
PX_LAST 2014-11-03 1199.460 2017.81 
PX_LAST 2014-11-04 1195.323 2012.10 
PX_LAST 2014-11-05 1200.936 2023.57 
PX_LAST 2014-11-06 1206.061 2031.21 
PX_OPEN 2014-11-03 1200.140 2018.21 
PX_OPEN 2014-11-04 1197.690 2015.81 
PX_OPEN 2014-11-05 1195.320 2015.29 
PX_OPEN 2014-11-06 1200.620 2023.33

最后，如果你不喜欢的框架看起来你可以用面板的转置函数调用to_frame之前改变外观的方式（）在这里看到的文档 http://pandas.pydata.org/pandas-docs/dev/generated/pandas.Panel.transpose.html

只是作为一个例子

pd.Panel(d).transpose(2,0,1).to_frame().reset_index() 
major  minor 2014-11-03 2014-11-04 2014-11-05 2014-11-06 
RAY Index PX_LAST 1199.46 1195.323  1200.936 1206.061 
RAY Index PX_OPEN 1200.14 1197.690  1195.320 1200.620 
SPX Index PX_LAST 2017.81 2012.100  2023.570 2031.210 
SPX Index PX_OPEN 2018.21 2015.810  2015.290 2023.330

希望这会有所帮助。

来源

2014-11-07 14:44:33 Mishiko

如此优雅的解决方案！ – vk1011

这很容易理解。谢谢。 – Moondra

构建大熊猫数据帧在嵌套字典

回答

相关问题