2016-01-19 82 views
0

所以我有一个数据框,有一堆特征,其中一些我想做成一个虚拟变量,其中一些我想单独留下,我想创建一个懒惰/更快的方式来做到这一点,而不仅仅是打字:如何在Python中的循环内创建虚拟变量?

dum_A = pd.get_dummies(df['A'],prefix='A') 
dum_B = pd.get_dummies(df['B'],prefix='B') 
... 
dum_N = pd.get_dummies(df['N'],prefix='N') 

所以这是我在下面提出的代码。

List_of_dummy_names = [] 
List_of_dummy_col = [] 

for col in list(df1.columns.values): 
    if len(df1[col].value_counts()) <= 7: 
     List_of_dummy_names.append('dum_'+col) 
     List_of_dummy_col.append(col) 

for (dummy, col) in zip(List_of_dummy_names, List_of_dummy_col): 
    dummy = pd.get_dummies(df1[col], prefix=col) 

但是,这只返回作为列表中第n个特征的伪数据帧的变量伪元。我在这里做错了什么?我认为每个循环都会从列表中获得一个新名字,而不是像每次将新的虚拟DF分配给变量虚拟物。

非常感谢提前家伙。

+1

如何使用字典? 'd [col] = pd.get_dummies(df1 [col],prefix = col)' – eumiro

+0

谢谢,我认为这需要我大部分的方式,但是我怎样才能将该词典编入一个数据框,其余的我的DF – pakkunrob

回答

1
for col in list(df.columns.values): 
    if len(df[col].value_counts()) <= 7: 
      df= pd.concat([df,pd.get_dummies(df[col],prefix=col)],axis=0) 
      df[col].fillna(0,inplace=True) 
     ` 
+0

嘿,似乎也工作,但遇到MemoryError问题,有没有办法解决这个问题? – pakkunrob