0
我在本地模式下运行Apache Nutch 1.12。Apache Nutch重新启动抓取
我需要编辑种子文件以删除子域并添加一些新域,并希望从头开始重新抓取。
问题是每当我重新开始爬行爬行重新开始从我停止它,这是我去除的子域中间。
我停止了通过杀死java进程(kill -9)的抓取 - 我试图在bin目录中创建一个.STOP文件,但没有工作,所以我用kill。
现在每当我重新开始抓取时,我可以从输出中看到它正在重新启动停止作业的位置。我google了一下,遇到了停止hadoop工作,但我的服务器上没有任何hadoop文件 - 唯一的hadoop引用是apache nutch目录中的jar文件。
如何从一开始就重新开始抓取,而不是从最后一次抓取的位置开始抓取?有效地,我想开始一个新的爬行。
非常感谢
谢谢 - 我最终只指定一个不同的爬行。 – user12345