Apache Nutch重新启动抓取

我在本地模式下运行Apache Nutch 1.12。Apache Nutch重新启动抓取

我需要编辑种子文件以删除子域并添加一些新域，并希望从头开始重新抓取。

问题是每当我重新开始爬行爬行重新开始从我停止它，这是我去除的子域中间。

我停止了通过杀死java进程（kill -9）的抓取 - 我试图在bin目录中创建一个.STOP文件，但没有工作，所以我用kill。

现在每当我重新开始抓取时，我可以从输出中看到它正在重新启动停止作业的位置。我google了一下，遇到了停止hadoop工作，但我的服务器上没有任何hadoop文件 - 唯一的hadoop引用是apache nutch目录中的jar文件。

如何从一开始就重新开始抓取，而不是从最后一次抓取的位置开始抓取？有效地，我想开始一个新的爬行。

非常感谢

2017-06-19 user12345

要从头开始，只需指定一个不同的爬目录或删除现有之一。从种子列表

卸下条目不会影响crawldb或段的内容。在不从零重新启动的情况下删除域可以做的是在url过滤器中添加一个模式，以便在更新步骤中将url从crawldb中删除，或者至少在生成步骤中未选中。

2017-06-20 11:02:46

谢谢 - 我最终只指定一个不同的爬行。 – user12345

回答