我敢肯定这是一个基本问题,但我无法找到正确的路径在这里。使用熊猫的群只是放弃重复的项目
让我们假设这样一个数据帧,告诉多少水果每个人每周吃:
Name Fruit Amount
1 Jack Lemon 3
2 Mary Banana 6
3 Sophie Lemon 1
4 Sophie Cherry 10
5 Daniel Banana 2
6 Daniel Cherry 4
现在让我们假设,我只是想创建一个条形图与matplotlib
,显示每个总量在整个城镇每周吃水果。要做到这一点,我必须GROUPBY成果
在他的书中,熊猫笔者介绍groupby
作为split-apply-combine
操作的第一部分: 所以,首先GROUPBY的变换DataFrame
成DataFrameGroupBy
对象。然后,使用诸如sum
之类的方法,将结果合并到新的DataFrame
对象中。完美,我现在可以创造我的水果情节。
但是我面临的问题是当我不想sum
,diff
或者对所有组员都应用任何操作时会发生什么。当我只想用groupby
来保留DataFrame
每个水果类型只有一行时会发生什么(当然,对于这个例子来说简单,我可以得到一个unique
的水果列表,但这不是重点) 。
如果我这样做,的groupby
回报是DataFrameGroupBy
对象,其中许多与DataFrame
工作操作与DataFrameGroupBy
没有。
这个问题,我敢肯定,它很容易避免,给我很多头痛的问题。我怎样才能从groupby
DataFrame
而不必应用任何聚合函数?是否有不同的解决方法,甚至没有使用groupby
,由于在翻译中丢失而丢失了这些信息?
不清楚你在问什么。你的新数据框有什么列和值?我猜索引将由组键组成。 – Goyo