我建议忘记试图猜测的迹象。他们总是在变化。
我会标记行为的每个可想象的'特征',自动用'ok','spam'或''不确定'对特征进行评分。然后,“训练错误”(记录猜测错误的情况)。一段时间后,你可以有99.7%的准确性。
下面是一个提交到我的网站的7个最有趣的功能的例子,得分为89.9771%的垃圾邮件。这是垃圾邮件。
每一个在后发现,这些关键字是有可能98.9%是垃圾邮件的特征:
mssg txt - "tours" || Prob 0.98993
mssg txt - "cruises" || Prob 0.98993
mssg txt - "agencies" || Prob 0.98993
mssg txt - "choice" || Prob 0.98991
的电话号码是“12345”可能95%是垃圾邮件
tel number - "123456" || Prob 0.95440 Delta 0.45440
所述消息是30个字符(HTML除去后)的总长度是一个功能,指示94%的垃圾邮件
mssg maxlen - "30" || Prob 0.94600
(还有另一项得分为Prob 0.01011
的功能,可以抵消总体综合分数将其降低一点。但是,我不会说什么的特点是; O)
它从一个众所周知的垃圾邮件的IP提交:http://www.projecthoneypot.org/ip_84.19.186.171但没有必要使用特定的知识,将其标示出来为垃圾邮件。我收集各种信息,如IP,提交率等等,但正如您所看到的,最类似机器人行为的迹象并不是您可能猜到的。
要建立你的这些自己一个人....阅读: http://www.paulgraham.com/spam.html
如果您有任何图像在页面上/ CSS,这是不太可能的机器人将加载它们 – Artelius 2009-11-19 20:39:38
你的意思是,如果我有一个图像/ CSS的页面上,机器人甚至不会加载页面?至少大多数页面没有CSS? – johnnietheblack 2009-11-19 20:45:48
我认为他意味着他们不会加载图像/ css – esqew 2010-10-06 21:27:31