2017-06-19 112 views
0

我在本地模式下运行Apache Nutch 1.12。Apache Nutch重新启动抓取

我需要编辑种子文件以删除子域并添加一些新域,并希望从头开始重新抓取。

问题是每当我重新开始爬行爬行重新开始从我停止它,这是我去除的子域中间。

我停止了通过杀死java进程(kill -9)的抓取 - 我试图在bin目录中创建一个.STOP文件,但没有工作,所以我用kill。

现在每当我重新开始抓取时,我可以从输出中看到它正在重新启动停止作业的位置。我google了一下,遇到了停止hadoop工作,但我的服务器上没有任何hadoop文件 - 唯一的hadoop引用是apache nutch目录中的jar文件。

如何从一开始就重新开始抓取,而不是从最后一次抓取的位置开始抓取?有效地,我想开始一个新的爬行。

非常感谢

回答

0

要从头开始,只需指定一个不同的爬目录或删除现有之一。从种子列表

卸下条目不会影响crawldb或段的内容。在不从零重新启动的情况下删除域可以做的是在url过滤器中添加一个模式,以便在更新步骤中将url从crawldb中删除,或者至少在生成步骤中未选中。

+0

谢谢 - 我最终只指定一个不同的爬行。 – user12345