2017-06-19 194 views
1

我想知道什么是最有效的方式来更新我正在使用的数据帧是。
“位置”列有一些我想要过滤的位置。我想只保留超过两个项目的位置(>两行以上)。 head and tail of dfsnapshot of unique locations过滤列的子集数据帧

回答

2

这可能有点复杂,但它应该完成工作。

获得所有位置的列表超过2次出现:

counts = df['location'].value_counts() 
filt = counts[counts > 2] 

过滤原始数据,仅抽出的位置(keys())出现> 2倍

filt2 = df['location'].isin(filt.keys()) 

应用过滤器

print(df[filt2])