2015-05-06 58 views
0

我使用Hadoop的单个节点设置了Apache Nutch。当我执行爬网命令时,它开始爬网。但是在几分钟后抛出异常。org.apache.hadoop.mapred.InvalidInputException:输入路径不存在

原因:org.apache.hadoop.mapred.InvalidInputException:输入路径不 不存在:(请参考图像1)

这是无效的路径根据该异常 HDFS://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate

实际上在hdfs中没有这样的路径。

drwxrwxrwx如何来?

HDFS中我可以看到下面的路径

HDFS://本地主机:54310 /用户/ duleendra/TestCrawl /分段/ 20150506222506/crawl_generate

(请参考图像2以及)。

enter image description here

enter image description here

我错过了什么?

感谢

Duleendra

+0

drwxrwxrwx实际上是文件夹 –

+0

是的权限,但不知道如何该路径带有drwxrwxrwx HDFS://本地主机:54310 /用户/ duleendra/TestCrawl /段/ drwxrwxrwx/crawl_generate – Duleendra

+0

好像调用'LS在-al' shell脚本,但预计'ls'输出并解释结果 –

回答

0

我相信这是基于Unix系统,如OSX和FreeBSD的错误。 Nutch的抓取行为在他们身上不起作用。试试ubuntu。

相关问题