2011-01-22 42 views
1

我想写基于神经网络的反垃圾邮件。任何人都可以建议我使用什么类型的神经网络(Kohonen或其他)以及在神经元中输入什么:字符,单词或所有内容?基于神经网络的反垃圾邮件建议

+0

如果这是业务,那么你可以简单地使用akismet服务。 – cherouvim 2011-01-22 08:51:02

回答

2

虽然您选择的神经网络类型可能会在性能上有所不同,但事先并不知道哪种方法最好。假设你可以用于分类的神经网络,那么我认为它不会产生巨大的差异,所以你可能想要选择最常用的品种,多层感知器(MLP)。

创造性地开发描述性功能,并发现它们的组合最大化性能是战斗的一半。通常馈给垃圾邮件检测系统的一种输入格式是“单词包”,其基本上是给定消息中存在的所有非平凡词的列表。这可能很难与神经网络一起使用,因为数值相当于一串0/1虚拟变量。另一种可能性是对邮件中的单词进行预处理,以便计算垃圾邮件中经常出现的单词数量,以及更多出现在非垃圾邮件中的单词数量。基本信息统计也可能有帮助,例如平均字长,平均句子长度,不同单词的计数等。

1

创建一个单词列表(使用示例文本字统计) 为目标单词列表创建一个直方图文本 正常化和使用此直方图作为输入 输出垃圾或不(所以这是简单的分类)