阻止蠕虫爬行吗?
回答
不是。大多数“糟糕的机器人”无论如何都会忽略robots.txt文件。
滥用爬行通常意味着刮。这些机器人正在显示收获电子邮件地址或更常见的内容。
至于如何阻止他们?这非常棘手,往往不明智。反爬行技术往往不够完美,给普通人带来问题。
不幸的是,就像零售业的“萎缩”一样,这是在网上做生意的成本。
我不知道为什么这是downvoted。 –
@安恩不,他没有:-) http://stackoverflow.com/users/129570/oli-charlesworth?tab=reputation这是别人做的。 – Matty
一个合理的答案。 +1来平衡它。 –
用户代理(包括抓取工具)没有义务遵守robots.txt。你可以做的最好的办法是尝试识别滥用的访问模式(通过网络日志等),并阻止相应的IP。
- 1. OpenGL中的蠕虫爬行运动?
- 2. 子域vs子目录阻止爬虫
- 3. 防止自定义网络爬虫被阻止
- 4. 临时阻止谷歌爬虫,它会阻止未来的索引?
- 5. 变形地形[蠕虫状]
- 6. 如何阻止爬虫不能访问我的网站?
- 7. 电子邮件链接被阻止的网页爬虫
- 8. Python爬虫 - html.fromstring
- 9. 网络爬虫
- 10. Python的爬虫?
- 11. 爬虫实例
- 12. 网络爬虫HTTP错误403:禁止
- 13. 为什么scrapy爬虫停止?
- 14. Javascript蠕虫游戏画布问题
- 15. 开源C++爬虫?
- 16. C++网络爬虫
- 17. Java Web爬虫库
- 18. 文件爬虫OSError
- 19. PHP网络爬虫
- 20. Python网络爬虫
- 21. java网络爬虫
- 22. 爬虫vs刮板
- 23. php爬虫检测
- 24. 重定向爬虫
- 25. 网络爬虫类
- 26. Gevent链接爬虫
- 27. 爬虫在ubuntu后台运行时停止
- 28. 如何传递NoneTypes?所以爬虫进行并不停止:
- 29. 运行Android Marketplace的爬虫(“汞”目录?)
- 30. Erlang中的并行HTTP网络爬虫
是一个好主意吗? –
停止从该列表中的网站索引我的网站 – Ann