2012-06-06 183 views
11

如果这是冗余或超级基础,请原谅我。我来自R的Python/Numpy,很难在脑海中翻转。Numpy:通过多维数组对多维数组排序

我有一个n维数组,我想使用另一个n维索引值数组进行排序。我知道我可以把它放在一个循环中,但似乎应该有一个非常简洁的Numpyonic方式来将它击败。这是我的示例代码来设置,其中n = 2的问题:

a1 = random.standard_normal(size=[2,5]) 
index = array([[0,1,2,4,3] , [0,1,2,3,4] ]) 

所以现在我有一个2×5阵列的随机数和一个2×5索引。我已经读了take()的帮助,现在大概有10次,但我的大脑显然没有提供帮助。

我想这可能让我有:

take(a1, index) 

array([[ 0.29589188, -0.71279375, -0.18154864, -1.12184984, 0.25698875], 
     [ 0.29589188, -0.71279375, -0.18154864, 0.25698875, -1.12184984]]) 

但是这显然只是重新排序的第一个元素(我猜是因为扁平化)。

有关我如何从我的位置获取解决方案的任何提示,该解决方案通过index ...元素n的元素0对a1的元素0进行排序?

+0

所以,如果我理解正确,你想重新排序'索引'的每一行索引'a1'的每个“行”?换句话说,如果你是1D,a1.take(索引),但是对于每一行都这样做? –

+0

是。因此,通过第一行索引排序a1的第一行,并通过索引的第二行排列a1的第二行。当a1增长到n维时,那么指数也是如此。 –

回答

11

我想不出如何在N维工作这还,但 这里是2D版本:

>>> a = np.random.standard_normal(size=(2,5)) 
>>> a 
array([[ 0.72322499, -0.05376714, -0.28316358, 1.43025844, -0.90814293], 
     [ 0.7459107 , 0.43020728, 0.05411805, -0.32813465, 2.38829386]]) 
>>> i = np.array([[0,1,2,4,3],[0,1,2,3,4]]) 
>>> a[np.arange(a.shape[0])[:,np.newaxis],i] 
array([[ 0.72322499, -0.05376714, -0.28316358, -0.90814293, 1.43025844], 
     [ 0.7459107 , 0.43020728, 0.05411805, -0.32813465, 2.38829386]]) 

这里是N维版本:

>>> a[list(np.ogrid[[slice(x) for x in a.shape]][:-1])+[i]] 

下面是它的工作方式:

好吧,让我们从一个3维数组开始说明。

>>> import numpy as np 
>>> a = np.arange(24).reshape((2,3,4)) 
>>> a 
array([[[ 0, 1, 2, 3], 
     [ 4, 5, 6, 7], 
     [ 8, 9, 10, 11]], 

     [[12, 13, 14, 15], 
     [16, 17, 18, 19], 
     [20, 21, 22, 23]]]) 

您可以通过在每个轴上指定索引按如下方式访问这个数组的元素:

>>> a[0,1,2] 
6 

这是a[0][1][2]相当于是你将如何访问,如果我们处理相同的元素一个列表而不是一个数组。

numpy的允许您切片阵列时得到更炫:

>>> a[[0,1],[1,1],[2,2]] 
array([ 6, 18]) 
>>> a[[0,1],[1,2],[2,2]] 
array([ 6, 22]) 

这些例子就相当于[a[0][1][2],a[1][1][2]][a[0][1][2],a[1][2][2]]如果我们处理列表。

你甚至可以忽略重复的索引,numpy会找出你想要的。例如,上述实施例可以被等效地写成:

>>> a[[0,1],1,2] 
array([ 6, 18]) 
>>> a[[0,1],[1,2],2] 
array([ 6, 22]) 

阵列(或列表)的形状与您在每个维度切片仅影响形状返回的数组的。换句话说,numpy并不关心你试图用一个形状为(2,3,4)的数组索引你的数组,除非它将回馈一个形状为(2,3,4)的数组。例如:

>>> a[[[0,0],[0,0]],[[0,0],[0,0]],[[0,0],[0,0]]] 
array([[0, 0], 
     [0, 0]]) 

在这种情况下,我们敛相同元件,a[0,0,0]一遍一遍,但如我们在通过numpy的被返回的数组具有相同形状

好的,到。你的问题。你想要的是用你的index数组中的数字为最后一个轴上的数组编号。因此,对于你想要的问题中的例子,你需要​​3210

事实上你的索引数组是多维的,就像我之前说的那样,并不能告诉numpy关于你想从哪里获取这些索引的任何事情;它只是指定了输出数组的形状。因此,在您的示例中,您需要告诉numpy前5个值将从a[0]中提取,后5个值将从a[1]中提取。简单!

>>> a[[[0]*5,[1]*5],index] 

它变得复杂在N个维度,但让我们做它的3维阵列a我方式如上所定义。假设我们有以下索引数组:

>>> i = np.array(range(4)[::-1]*6).reshape(a.shape) 
>>> i 
array([[[3, 2, 1, 0], 
     [3, 2, 1, 0], 
     [3, 2, 1, 0]], 

     [[3, 2, 1, 0], 
     [3, 2, 1, 0], 
     [3, 2, 1, 0]]]) 

所以,这些值都是针对沿着最后一个轴的索引。我们需要告诉numpy沿着第一和第二轴的这些数字是从哪些指数取得的;也就是说,我们需要告诉numpy的,对于第一轴的指标是:

i1 = [[[0, 0, 0, 0], 
     [0, 0, 0, 0], 
     [0, 0, 0, 0]], 

     [[1, 1, 1, 1], 
     [1, 1, 1, 1], 
     [1, 1, 1, 1]]] 

和第二轴的指标是:

i2 = [[[0, 0, 0, 0], 
     [1, 1, 1, 1], 
     [2, 2, 2, 2]], 

     [[0, 0, 0, 0], 
     [1, 1, 1, 1], 
     [2, 2, 2, 2]]] 

那么我们可以这样做:

>>> a[i1,i2,i] 
array([[[ 3, 2, 1, 0], 
     [ 7, 6, 5, 4], 
     [11, 10, 9, 8]], 

     [[15, 14, 13, 12], 
     [19, 18, 17, 16], 
     [23, 22, 21, 20]]]) 

产生i1i2的方便numpy功能称为np.mgrid。我在我的回答中使用了np.ogrid,这在这种情况下是相当的,因为我之前提到过的那种无聊的魔法。

希望有帮助!

+0

我认为你钉了我想做的事。非常感谢!不要过于贪婪,但你能解释一下n维版本的用途吗?我一直在玩它,但我不赞成这个动作。 –

+0

没问题。我添加了一个解释,顺便说一下,写出的时间比找出答案的时间长! – user545424

+0

你,先生,值得一枚勋章!感谢您的美妙回答。 –

3

与此些今天打后,我想通了,如果我捎使用的映射功能,我可以真正解决了二维版本只是这样的:

a1 = random.standard_normal(size=[2,5]) 
index = array([[0,1,2,4,3] , [0,1,2,3,4] ]) 
map(take, a1, index) 

我需要map()take()a1

当然,接受的答案解决了n维版本。然而,回想起来,我确定我并不需要n维解决方案,而只需要2-D版本。