安装Nutch 1.3和Solr 3.1

我试图让nutch 1.3和solr 3.1一起工作。安装Nutch 1.3和Solr 3.1

注意：我正在使用Windows并安装了Cygwin。

我已经Nutch的安装并做了基本的爬行（从运行时中运行/本地）

斌/ Nutch的抓取网址-dir爬-depth 3

这似乎已经基于工作TEH日志（crawl.log） ... LinkDb：收于2011-10-24十四点22分47秒，经过：00:00:02 爬完成：爬

我已经Solr的安装和检验斯塔LL与本地主机：8983/Solr的/管理员

我复制了Nutch的Schema.xml文件的例子\ Solr的\ conf文件夹

当我运行下面的命令

斌/ Nutch的solrindex http://localhost:8983/solr爬行/ crawldb爬行/ linkdb爬行/分段/ *

我得到以下错误（hadoop.log）

2011-10-24 15:39:26,467 WARN mapred.LocalJobRunner - job_local_0001 
org.apache.solr.common.SolrException: ERROR:unknown field 'content' 

ERROR:unknown field 'content' 
request: http://localhost:8983/solr/update?wt=javabin&version=2 
... 
org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48) 
    at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) 
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) 
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216) 
2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed!

我错过了什么？

来源

2011-10-24 Mike Barlotta

也许你在crawl/linkdb之前错过了-linkdb标志？ – nottinhill

似乎schema.xml中缺少内容字段定义。

例如

<field name="content" type="text" stored="false" indexed="true"/>

示例schema.xml @http://svn.apache.org/viewvc/nutch/branches/branch-1.3/conf/schema.xml?view=markup似乎有它。您可能想要检查您复制的schema.xml。

来源

2011-10-26 17:49:07 Jayendra

安装Nutch 1.3和Solr 3.1

回答

相关问题