我们有一个Hadoop集群(Hadoop 0.20),我想用Nutch 1.2通过HTTP将某些文件导入HDFS,但是我无法让Nutch在集群上运行。在现有的Hadoop集群上运行Nutch
我从$ NUTCH_HOME /斌/ Nutch的脚本更新$ HADOOP_HOME /斌/ Hadoop的脚本到Nutch的jar添加到类路径中(其实我已经复制类路径设置为无,增加了部分在$ NUTCH_HOME/lib目录/ *到classpath),然后我试图运行下面的命令来注入URLS:
hadoop jar nutch*.jar org.apache.nutch.crawl.Injector -conf conf/nutch-site.xml crawl_path urls_path
,但我得到了java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
的$ N UTCH_HOME/conf目录/ Nutch的-site.xml中配置文件设置该属性
<property>
<name>mapreduce.job.jar.unpack.pattern</name>
<value>(?:classes/|lib/|plugins/).*</value>
</property>
的解决方法,以迫使/插件目录拆包作为建议:When nutch is run on hadoop > 0.20.2 (or cdh) it will not find plugins because MapReduce will not unpack plugin/ directory from the job's pack (due to MAPREDUCE-967),但似乎对我来说,没有工作。
有没有人遇到过这个问题?你有关于如何在现有Hadoop上运行Nutch的分步教程?
由于提前,
米哈埃拉
不,因为我找到了另一种解决方案。你可以说得更详细点吗?什么是TS和NS参数以及您在hadoop安装时复制了哪些文件,以及您将哪些文件添加到了nutch脚本中?如果我有时间可能我会尝试这种方式。谢谢 – mihaela 2011-03-17 15:46:43