我一直对Gmail垃圾邮件过滤器的高质量感到惊讶。去年,它过滤了99.95%的垃圾邮件,并且由于错误的邮件而被阻止。相比之下,我使用的任何其他邮件服务每50封邮件至少犯一次错误。Gmail垃圾邮件过滤器如何工作?
Gmail在内部如何达到这个质量水平?它是基于客户的反馈(例如,如果N客户将邮件拦截为垃圾邮件,则将其作为垃圾邮件分类给其他每个客户)?或者有一些窍门?也许一个基本的过滤器算法过滤最明显的垃圾邮件,一些困难的情况是由真人分析?
我一直对Gmail垃圾邮件过滤器的高质量感到惊讶。去年,它过滤了99.95%的垃圾邮件,并且由于错误的邮件而被阻止。相比之下,我使用的任何其他邮件服务每50封邮件至少犯一次错误。Gmail垃圾邮件过滤器如何工作?
Gmail在内部如何达到这个质量水平?它是基于客户的反馈(例如,如果N客户将邮件拦截为垃圾邮件,则将其作为垃圾邮件分类给其他每个客户)?或者有一些窍门?也许一个基本的过滤器算法过滤最明显的垃圾邮件,一些困难的情况是由真人分析?
简而言之,这是基于社区反馈。以下是官方解释引用:
Gmail用户在防止垃圾邮件从数百万收件箱中发挥重要作用。当Gmail社区用点击投票将特定电子邮件报告为垃圾邮件时,我们的系统会很快学会开始阻止类似的邮件。社区标示的垃圾邮件越多,我们的系统变得越聪明。
你可以在他们的Spam Explained页面阅读更多关于它的信息。
这是百万美元的问题,如果它能够在stackOverflow上得到解答,那么每个垃圾邮件过滤器都会有效。
这并不明显。就像我说的,也许谷歌雇用人类来过滤困难的案例,或者过滤器是基于用户的反馈。在这种情况下,是的,每个可能雇佣人员做这些事情或者依靠一个大型社区的人都可以制作出有效的垃圾邮件过滤器。 – 2010-07-22 19:48:35
不,这不会,因为他们的垃圾邮件过滤器的高质量是因为他们拥有大量的数据。参见Peter Norvig的演讲“数据的不合理有效性” – Wes 2014-02-09 18:20:16
我真的不知道Google做了多少垃圾邮件过滤(但我认为这毕竟是商业秘密)。如果您对垃圾邮件过滤的工作方式感兴趣,我建议您查看贝叶斯垃圾邮件过滤(http://en.wikipedia.org/wiki/Bayesian_spam_filtering)。这是一个相当容易理解的方法。
谷歌最有可能使用分类系统,如Logistic回归或神经网络。现有技术的垃圾邮件检测经常采用诸如这些的机器学习算法。
输出分类是“垃圾邮件”或“非垃圾邮件”,我敢肯定,这些输入在谷歌是绝密的,但我确定某些电子邮件文本短语如“立即购买”,“开销售“,”伟哥“或”男性增强“都是他们模型中的因素。哈哈哈。
哈哈哈。那很好笑。询问我们如何使用Google专有的商业秘密算法。为什么不问他们? – 2010-07-22 19:48:44