2012-10-20 26 views
1

我有一个包含发件人姓名,收件人,一个字和20个字之间的短信息以及指定为垃圾邮件/不是垃圾邮件的类的短消息数据集。我想根据这些历史数据建立一套关联规则。我正在考虑Apriori算法,但我不知道如何离散化短消息以便在数据集上运行算法。目标是提取导致垃圾邮件/非垃圾邮件分类的规则关联短信学习

回答

1

朴素贝叶斯/ SVM对于这种分类更好。只要把每个单词当作一个功能。