Python熊猫：如何根据多列进行分组并统计唯一值？

我有datafarme DF：Python熊猫：如何根据多列进行分组并统计唯一值？

id name number 
1 sam 76 
2 sam 8 
2 peter 8 
4 jack 2

我想组通过对“ID”列和计数基础上，对唯一值的数量（名称，编号）？

id count(name-number) 
1 1 
2 2 
4 1

我已经试过这一点，但它不工作：

df.groupby('id')[('number','name')].nunique().reset_index()

来源

2016-02-01 UserYmY

/@用户你的表是没有意义的有1计数1，它应该是2，有2个2的数字，2个“山姆”和2个8的数字，请给出一个清晰的例子数据和输出。 – Merlin

你可以这样做：

import pandas 
df = pandas.DataFrame({"id": [1, 2, 3, 4], "name": ["sam", "sam", "peter", "jack"], "number": [8, 8, 8, 2]}) 
g = df.groupby(["name", "number"]) 
print g.groups

这给：

{('jack', 2): [3], ('peter', 8): [2], ('sam', 8): [0, 1]}

获得的数每对可以做的唯一条目：

for p in g.groups: 
    print p, " has ", len(g.groups[p]), " entries"

这给：

('peter', 8) has 1 entries 
('jack', 2) has 1 entries 
('sam', 8) has 2 entries

更新：

的OP要求导致数据帧。得到这个的一种方法是使用aggregate，长度功能，这将返回一个数据帧，每对独特的条目数：

d = g.aggregate(len) 
print d.reset_index().rename(columns={"id": "num_entries"})

给出：

name number num_entries 
0 jack  2   1 
1 peter  8   1 
2 sam  8   2

来源

2016-02-01 15:55:15 mvd

感谢您的回答。我更希望能够用python熊猫有一个数据框，你知道如何做到这一点吗？ – UserYmY

@UserYmY：看到更新的答案 – mvd

你知道我怎么能得到独特的组？因为目前的脚本也给重复对 – UserYmY

尝试

df.groupby('id').apply(lambda x: x.drop('id', 
    axis=1).drop_duplicates().shape[0]).reset_index()

来源

2016-06-09 17:56:58

获取列组合的唯一值列表：

grouped= df.groupby('name').number.unique() 
for k,v in grouped.items(): 
    print(k) 
    print(v)

输出：

要获得基于另一个列的值的数量：

df.groupby('name').number.value_counts().unstack().fillna(0)

输出：

number 2 8 76 
name    
jack 1.0 0.0 0.0 
peter 0.0 1.0 0.0 
sam  0.0 1.0 1.0

来源

2016-07-19 23:14:45 sparrow

您只需将两个groupby s到获得预期的结果。

import pandas 
df = pandas.DataFrame({"id": [1, 2, 2, 4], "name": ["sam", "sam", "peter", "jack"], "number": [8, 8, 8, 2]}) 
group = df.groupby(['id','name','number']).size().groupby(level=0).size()

第一groupby将计算一套完整的原始组合（从而使你想算独特的列）。第二个groupby将计算您想要的每个列的唯一出现次数（您可以使用第一个groupby将该列放入索引中的事实）。

结果将是一个系列。如果你想有正确的列名数据框（如你在你想要的结果显示），你可以使用aggregate功能：

group = df.groupby(['id','name','number']).size().groupby(level=0).agg({'count(name-number':'size'})

来源

2017-06-16 09:30:15 stedes

Python熊猫：如何根据多列进行分组并统计唯一值？

回答

相关问题