1
对于Nutch的2.2.1,我知道2个爬行命令 - 斌/ Nutch的(一步一步),斌/爬行(全部在一个)Nutch的抓取命令
我知道如何指定抓取ID bin/crawl
命令。同样,如何指定bin/nutch
命令的抓取标识?
我问的原因是,我运行了一个使用all-in-one crawl command "bin/crawl"
指定爬网ID的大型爬网作业,它在Solr中进行第9次爬网迭代索引时崩溃了。现在,我只想运行一个步骤"bin/nutch solrindex"
命令来完成中断第9次迭代以完成solr索引。我应该如何在“bin/nutch solrindex
”命令中指定爬网ID?什么是语法?
我都存储在HBase的表抓取数据“webpage_test”