我有以下阵列(实际上是一个熊猫数据帧,其具有的阵列状的数据结构),它类似于以下内容:如何在scikit中对分类数据使用一个热门编码器?
[
['M', 4, 15]
['M', 3, 7]
['F', 5, 9]
['I', 4, 15]
]
我要预处理该数据,所以我可以在直线用它回归。 我相信这样做的方法是使用一个热编码器:http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder。
但是,只有类别是整数才有效。
我相信你可以使用DictVectorizer
做到这一点:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html#sklearn.feature_extraction.DictVectorizer
然而,这似乎只为字典,而不是数组。