2013-07-08 43 views
0

我已经使用NUTCH 1.2成功爬过一个站点。现在我想将它与solr 3.1集成。问题是当我发出命令$ bin/nutch solrindex localhost:8080/solr/crawl/crawldb crawl/linkdb cra wl/segments/*时发生错误。我附上我的Nutch的日志nutch 1.2 solr 3.1集成问题

请帮我解决这个问题

坏请求

要求://本地主机:8080/Solr的/更新重量= javabin &在组织版本= 2 。 apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:436) at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:245) at org.apache。 solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105) at org.apache.solr.client.solrj.So lrServer.add(SolrServer.java:49) at org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:75) at org.apache.nutch.indexer.IndexerOutputFormat $ 1.close(IndexerOutputFormat.java :48) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) at org.apache.hadoop .mapred.localjobrunner $ Job.run(LocalJobRunner.java:216) 2013-07-08 17:38:47,577错误solr.SolrIndexer - java.io.IOException:作业失败!

回答

0

您需要将以下Apache Commons库添加到类路径中:commons-httpclient.jar(您将它放在其他JAR所在的文件夹所在的文件夹中,该文件夹用于您的nutch安装)。

你可以找到的HttpClient这里http://hc.apache.org/httpcomponents-client-ga/

当前版本请注意,有可能是您的Nutch的版本使用的旧版本的HttpClient和HttpClient的当前版本不向后与旧版本兼容。在这种情况下,您需要下载旧版本的HttpClient,并将旧版本包含在您的库中。

+0

thanx宝贵的见解。添加http客户端jar,但仍然存在一个错误... java.io.IOException:作业失败! –

+0

编辑我的帖子,包括nutch日志 –

+0

好吧,欢迎你。这意味着你的问题已经解决了,这个问题应该根据SO规则关闭。如果您在解决下一个错误(IOException)时遇到问题,那么您应该询问关于它的其他问题。而且你__不应该将你的新错误信息添加到原始问题中。这不是如何工作。 – bpgergo