2014-05-14 49 views
1

如何使用熊猫行作为numpy数组的索引?说我有熊猫列作为numpy数组的索引

>>> grid = arange(10,20) 
>>> df = pd.DataFrame([0,1,1,5], columns=['i']) 

我愿做

>>> df['j'] = grid[df['i']] 
IndexError: unsupported iterator index 

的是,真正执行这个操作很短的,清洁的方式?

更新

为了精确,我想,其具有对应于第一列包含的索引的值的附加列:df['j'][0] = grid[df['i'][0]]0柱等

预期输出:

index i j 
    0 0 10 
    1 1 11 
    2 1 11 
    3 5 15 

并行案例:Numpy-to-Numpy

只是为了展示其中的想法来自于,在标准Python/numpy,如果你有

>>> keys = [0, 1, 1, 5] 
>>> grid = arange(10,20) 
>>> grid[keys] 
Out[30]: array([10, 11, 11, 15]) 

这正是我想做的事情。只有我的密钥不存储在一个向量中,它们存储在一个列中。

回答

5

这是一个nandy的bug,浮出水面熊猫0.13.0/numpy 1.8.0。

你可以这样做:

In [5]: grid[df['i'].values] 
Out[5]: array([0, 1, 1, 5]) 

In [6]: Series(grid)[df['i']] 
Out[6]: 
i 
0 0 
1 1 
1 1 
5 5 
dtype: int64 

这是你的输出相匹配。您可以将数组分配到一列,只要数组的长度/列表是相同为框架(否则你将如何对齐?)

In [14]: grid[keys] 
Out[14]: array([10, 11, 11, 15]) 

In [15]: df['j'] = grid[df['i'].values] 


In [17]: df 
Out[17]: 
    i j 
0 0 10 
1 1 11 
2 1 11 
3 5 15 
+0

因为我真的不明白这里应用的逻辑:我将如何影响索引?现在这个'df ['i']'有一个索引,但我希望它具有'df'的索引。 – FooBar

+0

你想做什么?它不是一个好主意,使用熊猫结构索引到一个numpy数组,因为numpy数组不知道索引或任何东西。 – Jeff

+0

我想将该系列添加到原始数据框。 – FooBar