在生成虚拟列之前在数据帧中过滤类别

我有一些数据集在某些列中包含分类值（一行可能包含多个类别，由,分隔）。例如：在生成虚拟列之前在数据帧中过滤类别

user hashtags 
0 u1  a,b 
1 u2  a,c 
2 u3  c

我想为这些类别制作虚拟列。我对数据集中出现次数很少的类别也不感兴趣。目前，我生成虚设列，然后丢弃的那些具有很少出现，这样的（chunk是原始数据帧）：

dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',') 
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c) 

# get rid of dummy columns with usage below 10 
usage = dummies_hashtags.sum(0) 
high_usage = dummies_hashtags[np.where(usage >= 10)[0]] 
low_usage = dummies_hashtags[np.where(usage < 10)[0]] 
dummies_hashtags = high_usage 
dummies_hashtags['other_hashtags'] = low_usage.sum(1)

通知我还加入了列的类别与所述数发生率低。

这种方法的工作原理非常缓慢。关于如何改进它的想法是首先获取所有独特的类别和它们的计数，然后删除具有低计数的类别，在之前生成虚拟列。

我想问你这个问题：这个方法是否会改善任何事情？它将如何实施？（想到了np.unique和return_counts=True）。另外，有没有更好的方法来解决这个问题？

（注意：数据集已经是SparseDataFrame）。

来源

2017-04-15 chuckeles

列名是什么？你显示的内容看起来不像DataFrame。 – Peaceful

使用numpy和布尔切片应该加快速度..让我知道这是否适合你。

duh = df.hashtags.str.get_dummies(',') 
v = duh.values 
m = v.sum(0) > 1 # filter out occurrences of 1. change for your needs 
d2 = pd.DataFrame(v[:, m], duh.index, duh.columns[m]) 

df.join(d2) 

    user hashtags a c 
0 u1  a,b 1 0 
1 u2  a,c 1 1 
2 u3  c 0 1

来源

2017-04-15 20:50:15 piRSquared

它呢！所以我想在生成虚拟变量之前对标签进行预处理没有意义，因为它运行速度更快。 – chuckeles

在生成虚拟列之前在数据帧中过滤类别

回答

相关问题