2012-04-07 47 views
0

我有一个Nutch爬行任务,这个任务已经运行了整整一天,直到我通过一个错误杀死了这个进程。有没有办法继续Nutch Crawl任务被意外杀死?

我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数,可以使抓取工具忽略那些已经被抓取的网址。

非常感谢!

回答

0

开始抓取后,可能会在输出目录中创建一些段。使用bin/nutch命令和点​​选项到上一次运行的输出目录。对于urlDir参数,请使用单个url创建一个虚拟的URL(仅用于在urldir没有任何url时远离错误)。

相关问题