1
我试图抓取网站使用Nutch爬行,并得到这个错误:误差与Nutch的
java.net.MalformedURLException: no protocol:
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265)
at org.apache.nutch.crawl.Injector.inject(Injector.java:296)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
感谢您的回答,这是工作,但现在我得到这个错误:线程“主”的异常java.io.IOException:作业失败! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) at org.apache.nutch.crawl.Injector.inject(Injector.java:296) at org.apache.nutch.crawl。 Crawl.run(Crawl.java:127) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 现在问题在哪里? – goodi 2013-04-28 07:38:10
你用什么存储(hbase,cassandra或mysql)?检查你的配置。 (如hbase-site.xml ...) – cguzel 2013-04-28 15:11:36
检查Hadoop日志。你可以看到更详细的问题。 – cguzel 2013-04-28 15:14:18