使用网络爬虫的道德

我最近建立了一个简单的网络爬虫，我希望在网络中使用它。我的问题是我遵循的伦理规则，以及如何遵循它们。我听说过robot.txt文件，我如何在python中打开它，以及如何处理它？他们是否需要遵守其他道德规则，例如每秒最大网站等？ Thenx提前。使用网络爬虫的道德

robot.txt是一个简单的文本文件，用于网站蜘蛛在网站所有者列出他们不想通过网页蜘蛛索引的网页。但对于大多数人来说，这并不是有意思的信息，你可以通过假装你的网页蜘蛛给用户。

所有请求页面将包含User_agent（russian version with more examples）元数据代理服务器 - 你是谁 - 与Firefox或网络蜘蛛状资讯提供ly提取器用户（资讯提供ly/1.0（+ http://www.feedly.com/fetcher.html;像使用Feedfetcher-谷歌）和你还可以伪装成IE 6.0用户

伦理和道德的

Вreach - 没有触犯刑律的，在地下室的内容每个站点有一个链接“隐私”在大多数情况下都要求参考。到原材料

一旦我以每秒15页的速度刮掉一个新闻网站，我作为DDoS攻击被禁止了10分钟，但是当我设置200ms的动作之间的间隔时。一切正常。但它取决于服务器配置。

2013-08-24 19:32:20 khex

回答