2013-08-23 75 views
0

我最近建立了一个简单的网络爬虫,我希望在网络中使用它。我的问题是我遵循的伦理规则,以及如何遵循它们。我听说过robot.txt文件,我如何在python中打开它,以及如何处理它?他们是否需要遵守其他道德规则,例如每秒最大网站等? Thenx提前。使用网络爬虫的道德

回答

2

robot.txt是一个简单的文本文件,用于网站蜘蛛在网站所有者列出他们不想通过网页蜘蛛索引的网页。但对于大多数人来说,这并不是有意思的信息,你可以通过假装你的网页蜘蛛给用户。

所有请求页面将包含User_agentrussian version with more examples)元数据代理服务器 - 你是谁 - 与Firefox或网络蜘蛛状资讯提供ly提取器用户(资讯提供ly/1.0(+ http://www.feedly.com/fetcher.html;像使用Feedfetcher-谷歌)和你还可以伪装成IE 6.0用户

伦理和道德的

Вreach - 没有触犯刑律的,在地下室的内容每个站点有一个链接“隐私”在大多数情况下都要求参考。到原材料

一旦我以每秒15页的速度刮掉一个新闻网站,我作为DDoS攻击被禁止了10分钟,但是当我设置200ms的动作之间的间隔时。一切正常。但它取决于服务器配置。