2014-10-06 55 views

回答

0

如果您的网站是公开的,您的选择是有限的。这里有几点建议:

  • 最明显的是:密码保护您的网站。这可能不是最实用的公共场所,但保证工作。
  • 为您的网站定义robots.txt规则。爬行者没有义务遵守这些规则,但友好的(希望他们大多数)通常会遵守robots.txt。
  • 如果这些机器人因为他们对你的网站不够好而感到不快(比如打得太快),还可以选择检测并阻止他们的IP。只有当他们不从一个不同的IP地址爬行时,这才会起作用。
  • 希望网络爬虫机器人通过不同的HTTP请求User-Agent值正确识别您的网站。您可以阻止您的网页寻找不需要的用户代理。 robots.txt可以做到这一点,但在这里我正在讨论让Web服务器检测到它,而不是渲染页面或返回错误。

你没有说你为什么想阻止它们。答案可能会影响你采取的方法。例如,如果您想将敏感数据保存到选定的一组人群中,那么密码保护可能是最好的方法,而不是试图永远追捕机器人。如果这是网站性能问题,请考虑为您的网站设置更强大的主机。希望有一个或上述建议的组合能为你做好这项工作。

+0

接听2-3邮件回复(由于回复过长) – 2014-10-16 05:30:56

+0

方面的网站,它是根据一个应用程序,它也是我的大学项目, 首先我会跟您的建议开始, 1.我无法添加密码,因为我的应用程序不允许我提供密码验证。 2.关于robot.txt规则,只有一些好的爬虫/机器人会遵守规则。坏机器人很容易否认这个规则。 3.网站也一直在使用漫游器。 关于阻塞IP我想问一下当bot使用代理IP地址时会发生什么,IP也会根据事实和分析在常规基础上进行更改。 – 2014-10-16 05:58:30

+0

4.谈论用户代理我们可以在某种程度上依赖于用户代理,但不能完全.IE探索允许我们在请求网页时创建我们自己定义的用户代理。 我的网络应用程序是社交应用程序,它regulary张贴在社交媒体上的评论和页面链接,然后我检查社交媒体的推介流量,从那里我得到机器人/履带击中我的应用程序,我想停下来。 影响页面加载计数急剧增加。 根据这种情况,仍然有任何解决方案/逻辑你必须申请。 谢谢。 – 2014-10-16 05:59:06