由于是一个简单的CSV文件:RandomForestClassfier.fit():ValueError异常:无法将字符串转换为浮动
A,B,C
Hello,Hi,0
Hola,Bueno,1
显然,真正的数据集比这要复杂得多,但是这一次重现错误。我试图建立一个随机森林分类吧,像这样:
cols = ['A','B','C']
col_types = {'A': str, 'B': str, 'C': int}
test = pd.read_csv('test.csv', dtype=col_types)
train_y = test['C'] == 1
train_x = test[cols]
clf_rf = RandomForestClassifier(n_estimators=50)
clf_rf.fit(train_x, train_y)
但是调用,当我刚刚得到这个回溯拟合():
ValueError: could not convert string to float: 'Bueno'
scikit学习的版本是0.16.1 。
谢谢。我最终找到了一个使用DictVectorizer的解决方案。我很惊讶没有更好的文件来处理这样的问题。如果我在这里有足够的业力,我会高兴。 – nilkn