0
A
回答
0
如果您的网站是公开的,您的选择是有限的。这里有几点建议:
- 最明显的是:密码保护您的网站。这可能不是最实用的公共场所,但保证工作。
- 为您的网站定义robots.txt规则。爬行者没有义务遵守这些规则,但友好的(希望他们大多数)通常会遵守robots.txt。
- 如果这些机器人因为他们对你的网站不够好而感到不快(比如打得太快),还可以选择检测并阻止他们的IP。只有当他们不从一个不同的IP地址爬行时,这才会起作用。
- 希望网络爬虫机器人通过不同的HTTP请求User-Agent值正确识别您的网站。您可以阻止您的网页寻找不需要的用户代理。 robots.txt可以做到这一点,但在这里我正在讨论让Web服务器检测到它,而不是渲染页面或返回错误。
你没有说你为什么想阻止它们。答案可能会影响你采取的方法。例如,如果您想将敏感数据保存到选定的一组人群中,那么密码保护可能是最好的方法,而不是试图永远追捕机器人。如果这是网站性能问题,请考虑为您的网站设置更强大的主机。希望有一个或上述建议的组合能为你做好这项工作。
相关问题
- 1. 访问通过网络爬虫存储的.lck和jdb文件
- 2. 网络爬虫
- 3. 如何阻止爬虫不能访问我的网站?
- 4. C++网络爬虫
- 5. PHP网络爬虫
- 6. Python网络爬虫
- 7. java网络爬虫
- 8. 网络爬虫类
- 9. Appengine Apps VS谷歌机器人网络爬虫
- 10. 网络爬虫HTTP错误403:禁止
- 11. 通过ipv4网络访问ipv6网站
- 12. 自动网络爬虫
- 13. 网络爬虫的功能
- 14. 网络爬虫,反馈?
- 15. 网络爬虫的Java
- 16. 递归网络爬虫perl
- 17. 简单的网络爬虫
- 18. Python中的网络爬虫
- 19. 需要网络爬虫
- 20. 网络爬虫文本云
- 21. 硒与python网络爬虫
- 22. 网络爬虫从Android Market
- 23. 网络爬虫应用
- 24. 网络爬虫不打印
- 25. 网络爬虫提取
- 26. python网站爬虫(多个网站)
- 27. 网络爬虫如何处理javascript
- 28. 如何配置网络爬虫?
- 29. 如何使网络爬虫更有效?
- 30. 如何识别网络爬虫?
接听2-3邮件回复(由于回复过长) – 2014-10-16 05:30:56
方面的网站,它是根据一个应用程序,它也是我的大学项目, 首先我会跟您的建议开始, 1.我无法添加密码,因为我的应用程序不允许我提供密码验证。 2.关于robot.txt规则,只有一些好的爬虫/机器人会遵守规则。坏机器人很容易否认这个规则。 3.网站也一直在使用漫游器。 关于阻塞IP我想问一下当bot使用代理IP地址时会发生什么,IP也会根据事实和分析在常规基础上进行更改。 – 2014-10-16 05:58:30
4.谈论用户代理我们可以在某种程度上依赖于用户代理,但不能完全.IE探索允许我们在请求网页时创建我们自己定义的用户代理。 我的网络应用程序是社交应用程序,它regulary张贴在社交媒体上的评论和页面链接,然后我检查社交媒体的推介流量,从那里我得到机器人/履带击中我的应用程序,我想停下来。 影响页面加载计数急剧增加。 根据这种情况,仍然有任何解决方案/逻辑你必须申请。 谢谢。 – 2014-10-16 05:59:06