我目前正在测试我的二进制SVM Java实现的培训阶段。 我测试了如下图所示的小数据,但我需要我的支持向量机适用于已知数据集像垃圾邮件/不是垃圾邮件,图像等构建Svm培训集的困惑
- 我SVM能够读取数值,所以我需要也用一些真实的数据测试它。
- 后来我想转到图像。
要找到一个真正的数据集,我通过不同的搜索回购协议,但所有我能找到的数值+字符,文本等
而且我发现一个spam Archive。
- 但我该如何处理?
- 我想我需要使用tfidf将文本转换为数字数据,然后应用我的SVM。
- 但是,我如何指示他们为1/-1类。
通常情况下输入的格式是正确的?
0 0 1
3 4 1
5 9 1
12 1 1
8 7 1
9 8 -1
6 12 -1
10 8 -1
8 5 -1
14 8 -1
如何将垃圾邮件归档数据转换为上述格式?
如果您正在寻找预煮测试数据,LIBSVM小组会提供大量测试数据。 – tmyklebu
谢谢你的回复tmyklebu:你可以与我分享这些数据集的链接。 –