我最近建立了一个简单的网络爬虫,我希望在网络中使用它。我的问题是我遵循的伦理规则,以及如何遵循它们。我听说过robot.txt文件,我如何在python中打开它,以及如何处理它?他们是否需要遵守其他道德规则,例如每秒最大网站等? Thenx提前。使用网络爬虫的道德
0
A
回答
2
robot.txt是一个简单的文本文件,用于网站蜘蛛在网站所有者列出他们不想通过网页蜘蛛索引的网页。但对于大多数人来说,这并不是有意思的信息,你可以通过假装你的网页蜘蛛给用户。
所有请求页面将包含User_agent(russian version with more examples)元数据代理服务器 - 你是谁 - 与Firefox或网络蜘蛛状资讯提供ly提取器用户(资讯提供ly/1.0(+ http://www.feedly.com/fetcher.html;像使用Feedfetcher-谷歌)和你还可以伪装成IE 6.0用户
伦理和道德的Вreach - 没有触犯刑律的,在地下室的内容每个站点有一个链接“隐私”在大多数情况下都要求参考。到原材料
一旦我以每秒15页的速度刮掉一个新闻网站,我作为DDoS攻击被禁止了10分钟,但是当我设置200ms的动作之间的间隔时。一切正常。但它取决于服务器配置。
相关问题
- 1. 网络爬虫
- 2. 网络爬虫的法律或道德陷阱?
- 3. C++网络爬虫
- 4. PHP网络爬虫
- 5. Python网络爬虫
- 6. java网络爬虫
- 7. 网络爬虫类
- 8. 网络爬虫应用
- 9. 使用perl的网络爬虫
- 10. 使用vb.net的网络爬虫/蜘蛛
- 11. 网络爬虫的功能
- 12. 网络爬虫的Java
- 13. 简单的网络爬虫
- 14. Python中的网络爬虫
- 15. 网络爬虫使用双绞线
- 16. 错误使用C#网络爬虫
- 17. 自动网络爬虫
- 18. 网络爬虫,反馈?
- 19. 递归网络爬虫perl
- 20. 需要网络爬虫
- 21. 网络爬虫文本云
- 22. 硒与python网络爬虫
- 23. 网络爬虫从Android Market
- 24. 网络爬虫不打印
- 25. 网络爬虫提取
- 26. 如何使网络爬虫更有效?
- 27. 用Java编写网络爬虫
- 28. 针对windows的增量爬网支持的网络爬虫
- 29. 在Scala中的网络爬虫算法
- 30. Python的网络爬虫:连接超时