0

考虑到我可能有被写成如下形式的ARFF文件:测试用例的Weka

@relation spamOrNot 
@attribute body String 
@attribute result {spam, notspam} 
"free money now!", spam 
"hi meet me at 10", notspam 

和我跑这个训练朴素贝叶斯分类器上的Weka。我如何创建一个测试集,以便这个训练好的分类器能够做出预测?谢谢。

+0

下载您自己的收件箱和垃圾邮件的副本,编写脚本将邮件转换为垃圾邮件,并检查您是否得到与您的电子邮件提供商所做的相同的预测。 – 2012-03-13 22:42:42

回答

1

有许多数据存储库,您可以在其中找到垃圾邮件和非垃圾邮件示例(来自现实生活)。然后,拿出垃圾邮件/非垃圾邮件的正文,并使用适当的标签(垃圾邮件用于垃圾邮件正文,不用垃圾邮件)发布类似这样的arff文件(但这次它将测试arff文件) )。通过你的训练变量文件,你将得到一个分类器模型。保存该模型。然后在Weka资源管理器分类选项卡上,选择单选按钮“测试集”并选择您的测试集(它将具有标签)。然后加载你的训练模型,右键点击它,然后选择用测试集重新评估。你完成了。