误差与Nutch的

2013-04-23 28 views 1 likes

我试图抓取网站使用Nutch爬行，并得到这个错误：误差与Nutch的

java.net.MalformedURLException: no protocol: 
    Exception in thread "main" java.io.IOException: Job failed! 
      at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) 
      at org.apache.nutch.crawl.Injector.inject(Injector.java:296) 
      at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
      at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
      at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

来源

2013-04-23 goodi

回答

检查种子列表。运行喷油器作业时发生此错误。可能是由于你的种子列表。您的种子网址如下：http://www.example.com。您必须将协议添加为“http //”。

来源

2013-04-27 23:56:34 cguzel

感谢您的回答，这是工作，但现在我得到这个错误：线程“主”的异常java.io.IOException：作业失败！ at org.apache.hadoop.mapred.JobClient.runJob（JobClient.java:1265） at org.apache.nutch.crawl.Injector.inject（Injector.java:296） at org.apache.nutch.crawl。 Crawl.run（Crawl.java:127） at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:65） at org.apache.nutch.crawl.Crawl.main（Crawl.java:55）现在问题在哪里？ – goodi 2013-04-28 07:38:10

你用什么存储（hbase，cassandra或mysql）？检查你的配置。（如hbase-site.xml ...） – cguzel 2013-04-28 15:11:36

检查Hadoop日志。你可以看到更详细的问题。 – cguzel 2013-04-28 15:14:18

误差与Nutch的

回答

相关问题