2011-08-12 52 views

回答

6

不是。大多数“糟糕的机器人”无论如何都会忽略robots.txt文件。

滥用爬行通常意味着刮。这些机器人正在显示收获电子邮件地址或更常见的内容。

至于如何阻止他们?这非常棘手,往往不明智。反爬行技术往往不够完美,给普通人带来问题。

不幸的是,就像零售业的“萎缩”一样,这是在网上做生意的成本。

+1

我不知道为什么这是downvoted。 –

+0

@安恩不,他没有:-) http://stackoverflow.com/users/129570/oli-charlesworth?tab=reputation这是别人做的。 – Matty

+1

一个合理的答案。 +1来平衡它。 –

1

用户代理(包括抓取工具)没有义务遵守robots.txt。你可以做的最好的办法是尝试识别滥用的访问模式(通过网络日志等),并阻止相应的IP。