2011-09-10 70 views
1

我有nutch/hadoop与2 datanode服务器。我会尝试抓取一些网址,但Nutch的失败,此错误:Nutch抓取错误 - 输入路径不存在

Fetcher: segment: crawl/segments 
Fetcher: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://devcluster01:9000/user/nutch/crawl/segments/crawl_generate 
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190) 
    at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44) 
    at org.apache.nutch.fetcher.Fetcher$InputFormat.getSplits(Fetcher.java:105) 
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810) 
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781) 
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730) 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249) 
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1107) 
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1145) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1116) 

有人能帮助我吗?我不知道如何解决这个问题! 许多Thx!

+0

你究竟想要运行什么? – GreyCat

回答

1

验证nutch/crawl/segments/crawl_generate路径是否正确。

任一路径错误或解析阶段未完成。

1

nutch的生成阶段在segments目录内创建“crawl_generate”。这包含提取阶段中使用的提取列表。您得到的错误是因为获取阶段无法获取获取列表。确保生成的输出在提取试图找到它的位置填充。

相关问题