2016-03-18 50 views
1

我已经成功地配置MongoDB(5.3.1)和Nutch(2.3),当我运行命令“./bin/nutch index -all”后,在注入/ generate/fetch/parse/updatedb命令后打印了一些错误,错误的细节,如:用Nutch2.3配置MongoDB,关于indexerJob的一些错误?

SolrIndexerJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local140530148_0001 
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120) 
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:154) 
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:176) 
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211) 

我不得不配置$ NUTCH_HOME /运行/本地/ conf目录/ Nutch的-site.xml中的文件 细节:

enter image description here

回答

0

如果所有其他步骤正在运行,它不会是与mongodb问题,但与solr(你的nutch-site.xml建议你想ind在solr中取出你的数据)。据我记得,当我使用solr时,我精简了核心名称,它会是这样的:

http://localhost:8983/solr/mycore/ 
+1

谢谢你的回答。所以,你的意思是,我必须为solr创建自己的新核心,然后编辑相关配置。您是否使用中等扩展名“MongoDB-Connector”来使用nutch同步您从seed.txt中搜寻的数据? –

+0

不,我用HBase存储我的爬行分贝。为索引我的数据,我在某些日子使用了Solr,并切换到弹性。是的,你可以试试这个,几个月后我没有碰到Solr,但是我记得我已经精简了核心。也许这不是问题,但验证速度很快。 :) –