2016-04-13 66 views
0

我使用HDFS 2.7.1.2.4和Pig 0.15.0.2.4(Hortonworks HDP 2.4)的Hadoop并尝试使用Google Cloud Storage Connector for Spark and Hadoop(GitHub上的bigdata-interop) 。它工作正常,当我尝试,比方说,用于Hadoop的Google Cloud连接器不适用于Pig

hadoop fs -ls gs://bucket-name 

但是当我尝试在猪以下内容(的MapReduce模式):

data = LOAD 'gs://softline/o365.avro' USING AvroStorage(); 
data = STORE data INTO 'gs://softline/o366.avro' USING AvroStorage(); 

猪失败,出现以下错误:

org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Wrong FS scheme: hdfs, in path: hdfs://hdp.slweb.ru:8020/user/root, expected scheme: gs 
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:279) 
    at org.apache.hadoop.mapreduce.JobSubmitter.writeNewSplits(JobSubmitter.java:301) 
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:318) 
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:196) 
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290) 
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at javax.security.auth.Subject.doAs(Subject.java:422) 
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657) 
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287) 
    at org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob.submit(ControlledJob.java:335) 
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
    at java.lang.reflect.Method.invoke(Method.java:497) 
    at org.apache.pig.backend.hadoop23.PigJobControl.submit(PigJobControl.java:128) 
    at org.apache.pig.backend.hadoop23.PigJobControl.run(PigJobControl.java:194) 
    at java.lang.Thread.run(Thread.java:745) 
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher$1.run(MapReduceLauncher.java:276) 
Caused by: java.lang.IllegalArgumentException: Wrong FS scheme: hdfs, in path: hdfs://hdp.slweb.ru:8020/user/root, expected scheme: gs 
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.checkPath(GoogleHadoopFileSystemBase.java:741) 
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem.checkPath(GoogleHadoopFileSystem.java:90) 
    at org.apache.hadoop.fs.FileSystem.makeQualified(FileSystem.java:466) 
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.makeQualified(GoogleHadoopFileSystemBase.java:701) 
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem.getGcsPath(GoogleHadoopFileSystem.java:163) 
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.setWorkingDirectory(GoogleHadoopFileSystemBase.java:1094) 
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:235) 
    ... 18 more 

如果需要,我可以发布GC连接器的日志。

Hame有人用Pig连接器?任何帮助将被解雇。

+0

运行猪工作时,尝试设置mapred.working.dir =/user/root。通过Hadoop的Job conf来计算默认值,假设工作目录应该在默认的fs上。然后,猪对非本地文件系统做出假设。 –

+0

@AngusDavis,太棒了,它解决了问题!一个注意:mapred.working.dir现在已被弃用。我已经使用mapreduce.job.working.dir。你能否将其添加为答案?为什么它有效? “/ user/root”字符串中没有显式的fs,Pig现在如何做出正确的假设?不管怎样,谢谢! – sckol

回答

1

TL; DR明确设置workmapreduce.job.working.dir = /用户/根/开始养猪工作

时,如果工作目录尚未明确作业提交过程中设置的Hadoop然后将设置工作目录是默认文件系统的工作目录。当使用HDFS作为您的默认FS时,工作目录通常是'hdfs:// namenode:port/user/<您的用户名>'。

当调用PigInputFormat#getSplits时,它将获取与正在操作的输入路径关联的FileSystem。在这种情况下,文件系统是GoogleHadoopFileSystem的一个实例。然后Pig检查其输入的路径,如果路径是非本地调用FileSystem#setWorkingDirectory(job.getWorkingDirectory())。这里的问题在于作业的工作目录是'hdfs:// namenode:port/user/<您的用户名>',GoogleHadoopFileSystem会拒绝它作为自己工作目录的路径(因为它只支持'gs:// '路径)。

相关问题