有没有办法继续Nutch Crawl任务被意外杀死？

我有一个Nutch爬行任务，这个任务已经运行了整整一天，直到我通过一个错误杀死了这个进程。有没有办法继续Nutch Crawl任务被意外杀死？

我不想重新抓取种子（花费很多时间），所以我想知道是否有一种方法或一些Nutch Crawler参数，可以使抓取工具忽略那些已经被抓取的网址。

非常感谢！

2012-04-07 MrROY

开始抓取后，可能会在输出目录中创建一些段。使用bin/nutch命令和点选项到上一次运行的输出目录。对于urlDir参数，请使用单个url创建一个虚拟的URL（仅用于在urldir没有任何url时远离错误）。

2012-04-08 03:24:43

回答