2013-03-03 93 views
8

我想用户的Solr使用Nutch在Windows计算机上,我发现了以下错误的权限:Nutch的Windows中:无法设置路径

Exception in thread "main" java.io.IOException: Failed to set permissions of path: c:\temp\mapred\staging\admin-1654213299\.staging to 0700 

从大量的线程我学到的, hadoop似乎是由nutch使用的一些chmod魔术,可以在unix机器上运行,但不能在windows上运行。

现在这个问题存在了一年多了。我找到了一个线程,其中显示了代码行并提供了一个修复程序。我真的是他们中唯一一个有这个问题的人吗?所有其他人创建一个自定义版本,以便在windows上运行nutch吗?或者有一些选项可以禁用hadoop或其他解决方案吗?也许另一个履带而不是nutch?

非常感谢。 鲍里斯

下面是我在做什么的堆栈跟踪....

[email protected] /cygdrive/c/solr/apache-nutch-1.6 
    $ bin/nutch crawl urls -dir crawl -depth 3 -topN 5 -solr http://localhost:8080/solr-4.1.0 
    cygpath: can't convert empty path 
    crawl started in: crawl 
    rootUrlDir = urls 
    threads = 10 
    depth = 3 
    solrUrl=http://localhost:8080/solr-4.1.0 
    topN = 5 
    Injector: starting at 2013-03-03 17:43:15 
    Injector: crawlDb: crawl/crawldb 
    Injector: urlDir: urls 
    Injector: Converting injected urls to crawl db entries. 
    Exception in thread "main" java.io.IOException: Failed to set permissions of path:   c:\temp\mapred\staging\admin-1654213299\.staging to 0700 
     at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689) 
     at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662) 
     at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509) 
     at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344) 
     at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189) 
     at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116) 
     at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856) 
     at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850) 
     at java.security.AccessController.doPrivileged(Native Method) 
     at javax.security.auth.Subject.doAs(Unknown Source) 
     at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121) 
     at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) 
     at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) 
     at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) 
     at org.apache.nutch.crawl.Injector.inject(Injector.java:281) 
     at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
     at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 
+0

你是否试图以管理员身份运行它? – jpee 2013-03-05 20:45:18

+1

这个答案帮助我克服了这个例外: http://stackoverflow.com/a/18381218/854386 – Andrey 2013-12-27 14:41:13

回答

4

我花了一段时间才得到这个工作,但这里的解决方案适用于nutch 1.7。

  1. 从MVN库下载Hadoop Core 0.20.2
  2. 更换(Nutch的目录)/lib/hadoop-core-1.2.0.jar与下载的文件具有相同的名称重新命名它。

应该是这样。

说明

此问题是由Hadoop的,因为它假设你在UNIX上运行,并通过文件权限规则遵守造成的。这个问题实际上在2011年得到解决,但nutch没有更新他们使用的hadoop版本。相关的修补程序是herehere

+0

谢谢,这很好用 – 2015-01-02 14:12:03

1

我已经Nutch的窗户上,没有自定义生成运行。这是很长一段时间,因为我没有使用它。但是有一件事让我花了一段时间才发现,你需要运行cygwin作为Windows管理员才能获得必要的权利。

+0

感谢您的提示,但仍然是相同的行为。 你用的是哪一种版本? – 2013-03-05 06:54:10

+0

我曾与hadoop 19,nutch 1.0/1.1/1.2一起工作。 Windows Vista。 – 2013-03-05 09:53:26

+0

尝试使用cygwin手动执行相同的操作,以绝对确定 – 2013-03-05 09:56:00

2

我们也使用Nutch,但它不支持在Windows上运行,在Cygwin上我们的1.4版本和你有类似的问题,比如mapreduce。

我们通过在Ubuntu和Windows和Linux之间使用vm(虚拟盒子)和共享目录解决了这个问题,所以我们可以在Windows上开发和构建并在Linux上运行Nutch(抓取)。

0

我建议采用不同的方法。检查this link了。它解释了如何消除Windows上的错误,并且不要求您降级Hadoop或重建Nutch。我在Nutch 2.1上测试过,但它也适用于其他版本。 我也制作了a simple .bat for starting the crawler and indexer,但它是用于Nutch 2.x,可能不适用于Nutch 1.x.

0

您必须更改项目依赖项hadoop-core和hadoop-tools。我使用的是0.20.2版本,工作正常。