网站/ webURL如何通过网络爬虫和机器人停止访问？

我有一个网站，很多时候这个网站是由网络爬虫机器人访问。我想摆脱它。 Plz建议我可能的解决方案，以避免我的网站被机器人访问。网站/ webURL如何通过网络爬虫和机器人停止访问？

在此先感谢！

2014-10-06 Amit Patange

如果您的网站是公开的，您的选择是有限的。这里有几点建议：

最明显的是：密码保护您的网站。这可能不是最实用的公共场所，但保证工作。
为您的网站定义robots.txt规则。爬行者没有义务遵守这些规则，但友好的（希望他们大多数）通常会遵守robots.txt。
如果这些机器人因为他们对你的网站不够好而感到不快（比如打得太快），还可以选择检测并阻止他们的IP。只有当他们不从一个不同的IP地址爬行时，这才会起作用。
希望网络爬虫机器人通过不同的HTTP请求User-Agent值正确识别您的网站。您可以阻止您的网页寻找不需要的用户代理。 robots.txt可以做到这一点，但在这里我正在讨论让Web服务器检测到它，而不是渲染页面或返回错误。

你没有说你为什么想阻止它们。答案可能会影响你采取的方法。例如，如果您想将敏感数据保存到选定的一组人群中，那么密码保护可能是最好的方法，而不是试图永远追捕机器人。如果这是网站性能问题，请考虑为您的网站设置更强大的主机。希望有一个或上述建议的组合能为你做好这项工作。

来源

2014-10-12 04:41:25

接听2-3邮件回复（由于回复过长） – 2014-10-16 05:30:56

方面的网站，它是根据一个应用程序，它也是我的大学项目，首先我会跟您的建议开始， 1.我无法添加密码，因为我的应用程序不允许我提供密码验证。 2.关于robot.txt规则，只有一些好的爬虫/机器人会遵守规则。坏机器人很容易否认这个规则。 3.网站也一直在使用漫游器。关于阻塞IP我想问一下当bot使用代理IP地址时会发生什么，IP也会根据事实和分析在常规基础上进行更改。 – 2014-10-16 05:58:30

4.谈论用户代理我们可以在某种程度上依赖于用户代理，但不能完全.IE探索允许我们在请求网页时创建我们自己定义的用户代理。我的网络应用程序是社交应用程序，它regulary张贴在社交媒体上的评论和页面链接，然后我检查社交媒体的推介流量，从那里我得到机器人/履带击中我的应用程序，我想停下来。影响页面加载计数急剧增加。根据这种情况，仍然有任何解决方案/逻辑你必须申请。谢谢。 – 2014-10-16 05:59:06

网站/ webURL如何通过网络爬虫和机器人停止访问？

回答

相关问题