2015-12-15 61 views
0

我想根据链接到HTML网页的网站来抓取网站。Web-Crawler的黑名单

但是,我担心结束了各种“不太友善的儿童网站”。有谁知道黑名单网站列表我可以开始实施我自己的过滤器,以远离(至少一些)着色器的地方?

谢谢!

回答

0

稍微不同的方法是使用opendns familyshied并在运行爬网程序的服务器上配置DNS。然后,您可以在抓取工具中使用自定义过滤器来检测由opendns过滤的页面,并防止它们被索引或存储。

你不需要处理和管理黑名单,让opendns代替你做。

3

图卢兹大学为不同类型的维护良好的黑名单提供了一个很好的来源。你可以找到它们here

另一种方法是使用专注的抓取工具并让分类器决定,如果给定的页面值得被抓取,或者不适合您感兴趣的特定域名。