我想用径向内核预测带有SVM的MNIST(http://pjreddie.com/projects/mnist-in-csv/)数据集。我想训练几个例子(例如1000)并预测更多。问题在于,无论何时我预测,除非测试集的索引与训练集的索引一致,否则预测是恒定的。也就是说,假设我训练例子中的例子1:1000。然后,对于我的测试集的1:1000,预测是正确的(即SVM是最好的),但是其余的我得到相同的输出。然而,如果我用例子2001:3000进行训练,那么只有与测试集合中那些行相对应的测试例子被正确标记(即不具有相同的常量)。我完全不知所措,并且我认为存在某种错误,因为完全相同的代码对于LinearSVC来说工作得很好,尽管显然该方法的准确性较低。Scikit使用SVC学习错误的预测
首先,我训练与实例501:1000的训练数据:
# dat_train/test are pandas DFs corresponding to both MNIST datasets
dat_train = pd.read_csv('data/mnist_train.csv', header=None)
dat_test = pd.read_csv('data/mnist_train.csv', header=None)
svm = SVC(C=10.0)
idx = range(1000)
#idx = np.random.choice(range(len(dat_train)), size=1000, replace=False)
X_train = dat_train.iloc[idx,1:].reset_index(drop=True).as_matrix()
y_train = dat_train.iloc[idx,0].reset_index(drop=True).as_matrix()
X_test = dat_test.reset_index(drop=True).as_matrix()[:,1:]
y_test = dat_test.reset_index(drop=True).as_matrix()[:,0]
svm.fit(X=X_train[501:1000,:], y=y_train[501:1000])
在这里你可以看到,大约一半的预测是错误的
y_pred = svm.predict(X_test[:1000,:])
confusion_matrix(y_test[:1000], y_pred)
所有错误(即常数)
y_pred = svm.predict(X_test[:500,:])
confusion_matrix(y_test[:500], y_pred)
这是我期望看到的所有测试数据
y_pred = svm.predict(X_test[501:1000,:])
confusion_matrix(y_test[501:1000], y_pred)
您可以使用LinearSVC检查以上所有内容是否正确!