0
我有一个Nutch爬行任务,这个任务已经运行了整整一天,直到我通过一个错误杀死了这个进程。有没有办法继续Nutch Crawl任务被意外杀死?
我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数,可以使抓取工具忽略那些已经被抓取的网址。
非常感谢!
我有一个Nutch爬行任务,这个任务已经运行了整整一天,直到我通过一个错误杀死了这个进程。有没有办法继续Nutch Crawl任务被意外杀死?
我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数,可以使抓取工具忽略那些已经被抓取的网址。
非常感谢!
开始抓取后,可能会在输出目录中创建一些段。使用bin/nutch命令和点选项到上一次运行的输出目录。对于urlDir
参数,请使用单个url创建一个虚拟的URL(仅用于在urldir没有任何url时远离错误)。