2013-08-24 72 views
0

我有一个CSV文件中的训练数据,其中第一个元素是结果,其余元素是特征矢量。如何在scikit中训练svm从存在于csv文件中的训练数据中学习

我正在使用Weka在这个训练数据上训练和测试各种算法。但是现在我想多次使用训练好的模型来测试一个不属于训练数据一部分的特征向量,我不知道如何去做。我认为我可以通过使用scikit-learn来做到这一点。请提供一些帮助。

回答

5

只是切片数据,例如用于分类问题:

>>> import numpy as np 
>>> from sklearn.ensemble import ExtraTreesClassifier 

>>> data_train = np.loadtxt('data_train.csv', delimiter=',') 
>>> X = data_train[:, 1:] 
>>> y = data_train[:, 0].astype(np.int) 
>>> clf = ExtraTreesClassifier(n_estimators=100).fit(X, y) 

然后,让测试数据预测,即没有在第一列的目标标签:

>>> data_test = np.loadtxt('data_test.csv', delimiter=',') 
>>> print(clf.predict(data_test)) 
+0

我改变一到零。否则,+1。 –

+0

感谢修复larsmans! – ogrisel