我想向量化一些分类数据以构建列车和测试矩阵。如何矢量化分类数据
我有85个城市,我想获得一个矩阵282520行,每一行是像
[1 0 0 ..., 0 0 0]
矢量我想有每行的矢量为1或0取决于城市,所以每因此城市应该是一个列:
print(df['city'])
0 METROPOLITANA DE SANTIAGO
1 METROPOLITANA DE SANTIAGO
2 METROPOLITANA DE SANTIAGO
3 METROPOLITANA DE SANTIAGO
4 COQUIMBO
5 SANTIAGO
6 SANTIAGO
7 METROPOLITANA DE SANTIAGO
8 METROPOLITANA DE SANTIAGO
9 METROPOLITANA DE SANTIAGO
10 BIO BIO
11 COQUIMBO
... ...
282520 METROPOLITANA DE SANTIAGO
Name: city, dtype: object
这是我的尝试:
from sklearn import preprocessing
list_city = getList(df,'city')
le = preprocessing.LabelEncoder()
le.fit(list_city)
print(le.transform(['AISEN']))
print(le.transform(['TARAPACA']))
print(le.transform(['AISEN DEL GENERAL CARLOS IBANEZ DEL CAMP']))
我得到以下输出:
[0]
[63]
[1]
的问题是,我刚开了城市的指数,我找了建议,就如何向量化的数据。
你确定你不是在寻找[OneHotEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing .OneHotEncoder)?这听起来更像你要找的东西。 – patrick