将字典转换为Python中的numpy矩阵

我是一名python初学者。我有一个像字典如下：将字典转换为Python中的numpy矩阵

{'Clinton': [{'ideology': -0.5, 'vote':80}, {'ideology': -0.75, 'vote':90}, 
{'ideology': -0.89, 'vote': 99}, 
{'ideology': -0.5, 'vote':80, 'review': "She is a presidential candidate"}], 
'Alexander': [{'ideology': -0.1, 'vote':50}, {'ideology': -0.95, 'vote':20}, 
{'ideology': -0.19, 'vote': 19}, {'ideology': -0.2, 'vote':30, 'review': "Good"}] 
... }

我想这本词典转换为numpy的矩阵一样，创建名称为一列，如：

Name ideology vote review 
    Clinton -0.5 80 
    Clinton -0.75 90 
    Clinton -0.89 99 
    Clinton -0.5 80 "She is a presidential candidate" 
Alexander -0.1 50 
Alexander -0.95 20 
Alexander -0.19 19 
Alexander -0.2 30 "Good"

我如何转换这本字典为一个numpy矩阵？

我遇到的一个问题是数据有超过百万的观测值。因此循环播放将需要一段时间。我想使用字典作为岭回归的特征向量。

来源

2015-11-18 user3077008

它的价值：大熊猫可以很容易地从字典中创建一个DataFrame。 – Evert

但熊猫除外：你是否尝试过创建一个空的结构化数组，并在字典和内部列表上使用循环来填充数组？ – Evert

@Evert我试过了，但问题是数据有超过百万的观测值。因此循环播放将需要一段时间。我想使用字典作为岭回归的特征向量！ – user3077008

这是一个开始。我不是在这一点上（IPython的与python3.4）担心速度

In [473]: dd = {'Clinton': [{'ideology': -0.5, 'vote':80}, {'ideology': -0.75, 'vote':90}, 
{'ideology': -0.89, 'vote': 99}, 
{'ideology': -0.5, 'vote':80, 'review': "She is a presidential candidate"}], 
'Alexander': [{'ideology': -0.1, 'vote':50}, {'ideology': -0.95, 'vote':20}, 
{'ideology': -0.19, 'vote': 19}, {'ideology': -0.2, 'vote':30, 'review': "Good"}]} 
... 
In [475]: dd 
Out[475]: 
{'Alexander': [{'ideology': -0.1, 'vote': 50}, 
    {'ideology': -0.95, 'vote': 20}, 
    {'ideology': -0.19, 'vote': 19}, 
    {'ideology': -0.2, 'vote': 30, 'review': 'Good'}], 
'Clinton': [{'ideology': -0.5, 'vote': 80}, 
    {'ideology': -0.75, 'vote': 90}, 
    {'ideology': -0.89, 'vote': 99}, 
    {'ideology': -0.5, 'vote': 80, 'review': 'She is a presidential candidate'}]} 
In [476]: dd.keys() 
Out[476]: dict_keys(['Alexander', 'Clinton']) 
In [478]: dd.values() 
Out[478]: dict_values([[{'ideology': -0.1, 'vote': 50}, {'ideology': -0.95, 'vote': 20}, {'ideology':....}]]) 
...

做一个记录数组我需要一个元组列表，每个每个字段的值。具有键值对的第一个记录。但价值是一个清单。

（这些值列表显然是使用默认字典，列表追加的结果，它是建立一个字典的一个很好的方式，但不幸的是，对于数组我们必须将它解开。）

In [480]: [(k,v) for k,v in dd.items()] 
Out[480]: 
[('Alexander', 
    [{'ideology': -0.1, 'vote': 50}, 
    {'ideology': -0.95, 'vote': 20}, 
    .... 
    'review': 'She is a presidential candidate'}])]

- 更好地与3个字段元组的列表的列表：

In [483]: [[(k,vv['ideology'],vv['vote']) for vv in v] for k,v in dd.items()] 
Out[483]: 
[[('Alexander', -0.1, 50), 
    ('Alexander', -0.95, 20), 
    ('Alexander', -0.19, 19), 
    ('Alexander', -0.2, 30)], 
[('Clinton', -0.5, 80), 
    ('Clinton', -0.75, 90), 
    ('Clinton', -0.89, 99), 
    ('Clinton', -0.5, 80)]]

添加可能缺少review场

In [484]: [[(k,vv['ideology'],vv['vote'],vv.get('review','')) for vv in v] for k,v in dd.items()] 
Out[484]: 
[[('Alexander', -0.1, 50, ''), 
    ('Alexander', -0.95, 20, ''), 
    ('Alexander', -0.19, 19, ''), 
    ('Alexander', -0.2, 30, 'Good')], 
[('Clinton', -0.5, 80, ''), 
    ('Clinton', -0.75, 90, ''), 
    ('Clinton', -0.89, 99, ''), 
    ('Clinton', -0.5, 80, 'She is a presidential candidate')]] 
In [485]: ll=[[(k,vv['ideology'],vv['vote'],vv.get('review','')) for vv in v] for k,v in dd.items()]

要拼合名单列表中，使用intertools链

In [486]: from itertools import chain 
... 
In [488]: list(chain(*ll)) 
Out[488]: 
[('Alexander', -0.1, 50, ''), 
('Alexander', -0.95, 20, ''), 
('Alexander', -0.19, 19, ''), 
('Alexander', -0.2, 30, 'Good'), 
('Clinton', -0.5, 80, ''), 
('Clinton', -0.75, 90, ''), 
('Clinton', -0.89, 99, ''), 
('Clinton', -0.5, 80, 'She is a presidential candidate')] 
In [489]: ll1=list(chain(*ll)) 
...

定义一个D型：

In [491]: dt=np.dtype([('name','U10'),('ideology',float),('vote',int),('review','U100')]) 

In [492]: data=np.array(ll1,dt) 
In [493]: data 
Out[493]: 
array([('Alexander', -0.1, 50, ''), ('Alexander', -0.95, 20, ''), 
     ('Alexander', -0.19, 19, ''), ('Alexander', -0.2, 30, 'Good'), 
     ('Clinton', -0.5, 80, ''), ('Clinton', -0.75, 90, ''), 
     ('Clinton', -0.89, 99, ''), 
     ('Clinton', -0.5, 80, 'She is a presidential candidate')], 
     dtype=[('name', '<U10'), ('ideology', '<f8'), ('vote', '<i4'), ('review', '<U100')])

看起来不错。在最后一个阵列创建步骤中没有迭代。将字典转换为元组列表时有一个迭代。但使用字典时，这种迭代是不可避免的。

来源

2015-11-18 04:53:34 hpaulj

由于您的数据来自json文件，因此您可以使用read_json()函数将其加载到Pandas中。这将创建一个包含所需列的数据框。要运行岭回归，您可以使用scikit learn中的Ridge类（更多信息here）。作为一名Python初学者，值得学习熊猫和scikit。它们是数据分析和挖掘的常用软件包，可为您提供大部分所需的工具。结合两个网站上的示例：

from sklearn.linear_model import Ridge 
import pandas 
df = pandas.read_json('json.gz') 
y = df['vote'] 
X = df['ideology'] 
clf = Ridge(alpha=1.0) 
clf.fit(X, y)

这只是一个粗略的示例。我可能翻转了你的X轴和Y轴，并且弄错了所有的配置。您可能需要通过pandas.read_json()的orient参数提供格式字符串。话虽如此，一旦你阅读了相关文件，这应该让你了解如何开始。

来源

2015-11-18 05:01:07

将字典转换为Python中的numpy矩阵

回答

相关问题