我有一些数据集在某些列中包含分类值(一行可能包含多个类别,由,
分隔)。例如:在生成虚拟列之前在数据帧中过滤类别
user hashtags
0 u1 a,b
1 u2 a,c
2 u3 c
我想为这些类别制作虚拟列。我对数据集中出现次数很少的类别也不感兴趣。目前,我生成虚设列,然后丢弃的那些具有很少出现,这样的(chunk
是原始数据帧):
dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)
# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)
通知我还加入了列的类别与所述数发生率低。
这种方法的工作原理非常缓慢。关于如何改进它的想法是首先获取所有独特的类别和它们的计数,然后删除具有低计数的类别,在之前生成虚拟列。
我想问你这个问题:这个方法是否会改善任何事情?它将如何实施? (想到了np.unique
和return_counts=True
)。另外,有没有更好的方法来解决这个问题?
(注意:数据集已经是SparseDataFrame
)。
列名是什么?你显示的内容看起来不像DataFrame。 – Peaceful