2013-11-29 77 views
15

按列的值排序熊猫数据框是可行的,还可以通过索引来排序吗?在一个列和索引的值上对pandas数据框进行排序?

如果您按列的值对熊猫数据框进行排序,则可以得到按列排序的结果数据框,但不幸的是,您会在排序列的相同值内看到数据框索引凌乱的顺序。

那么,我可以按列排序一个数据帧,例如名为count的列,但也可以按索引的值对它排序?按降序对列进行排序也是可行的,但是按升序对索引进行排序?

我知道如何对数据框中的多个列进行排序,也知道我可以通过首先对这个索引reset_index()进行索引并对其进行排序,然后再次创建索引。但是,更直观,更高效的方法呢?

回答

1

要列排序下降,同时保持指数上升:

import pandas as pd 
df = pd.DataFrame(index=range(5), data={'c': [4,2,2,4,2]}) 
df.index = df.index[::-1] 
print df.sort(column='c', ascending=False) 

输出:

c 
1 4 
4 4 
0 2 
2 2 
3 2 
+2

感谢。但是这会导致索引的破坏,在某些情况下我可能不喜欢索引,因此仍然更喜欢'reset_index()'...感谢您的回答。 – Blaszard

+0

“破坏指数”是什么意思? – cyborg

+0

这将破坏多指令。您可以在[docs](http://pandas.pydata.org/pandas-docs/stable/advanced.html)中的多索引示例之一上尝试此操作。我会发布代码,但它作为评论基本上是不可读的。 – Russ

1

可以使用GROUPBY的组合和应用:

In [2]: df = pd.DataFrame({ 
      'transID': range(8), 
      'Location': ['New York','Chicago','New York','New York','Atlanta','Los Angeles', 
          'Chicago','Atlanta'], 
      'Sales': np.random.randint(0,10000,8)}).set_index('transID') 
In [3]: df 
Out[3]: 
     Location Sales 
transID 
0  New York 1082 
1  Chicago  1664 
2  New York 692 
3  New York 5669 
4  Atlanta  7715 
5  Los Angeles 987 
6  Chicago  4085 
7  Atlanta  2927 

In [4]: df.groupby('Location').apply(lambda d: d.sort()).reset_index('Location',drop=True) 
Out[4]: 
     Location Sales 
transID 
4  Atlanta  7715 
7  Atlanta  2927 
1  Chicago  1664 
6  Chicago  4085 
5  Los Angeles 987 
0  New York 1082 
2  New York 692 
3  New York 5669 

我在最后一行放置“位置”,因为groupby会将分组级别插入到第一个位置该指数。排序然后删除它们可以保留排序的顺序。

13

我敢打赌,最简单的方法就是将索引复制到列中,然后按两者排序。

df['colFromIndex'] = df.index 
df = df.sort(['count', 'colFromIndex']) 

我还希望能够做一些像df.sort(['count', 'index']),但当然不起作用。

+0

奇怪的是,当我尝试这样做时,它仍然只对'count'列和'colFromIndex'列进行排序...... – durbachit

+2

注意:sort已被弃用。 sort_values现在正在使用中。 – wwl

-9

我解决这个问题,接下来的方式:

df.to_csv('df.csv', index = False) 
df = df.read_csv('df.csv') 
+1

与此无关吗? – clg4

-1

我认为,从sort_values原来的顺序保持甚至当施加sort_index,所以这应该工作:

df.sort_values('count', ascending=False).sort_index(level=[index_level1, index_level2]) 
+0

我已经尝试过,原来的顺序并不是这样。 – wesanyer

相关问题