hadoop-streaming

    0热度

    1回答

    我想用hadoop流式传输,其中有一个用作映射器的java类。为了使问题简单,让我们假设的Java代码如下所示: [[email protected] java]$ cat a.dat abc [[email protected] java]$ cat a.dat | java Test abc [[email protected] java] 令: import java.io.*

    -1热度

    1回答

    转换一个JSON文件我的JSON文件,文件的每一行100GB看起来是这样的: {"field1":100, "field2":200, "field3":[{"in1":20, "in2":"abc"},{"in1":30, "in2":"xyz"}]} (它实际上要复杂得多,但对于这个会作为一个小的演示做的。) 我想把它处理的东西,其每一行看起来是这样的: {"field1":100, "f

    0热度

    1回答

    我运行此的hadoop streaming命令JAR档案: /home/hduser/hadoop/bin/hadoop jar /home/hduser/hadoop/share/hadoop/tools/lib /hadoop-*streaming*.jar -file audio.py -cacheArchive hdfs://localhost:54310/user/hduser

    1热度

    1回答

    我有,我可以执行以下流作业成功 sudo -u hdfs hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar -input /sample/apat63_99.txt -output /foo1 -mapper 'wc -l' -numReduceTasks 0 但5节点的Hadoop

    0热度

    1回答

    我正在猪身上编程,发生错误,我一直无法解决。 这里是代码我试图运行: --Load files into relations month1 = LOAD 'hdfs:/data/big/data/weather/201201hourly.txt' USING PigStorage(','); month2 = LOAD 'hdfs:/data/big/data/weather/201202ho

    -2热度

    7回答

    让假设有限制的文本文件选项卡(datetemp.txt)我希望加载这个文本文件中猪进行处理,但是当我键入以下行其给我的错误是: 咕噜> inputfile中=负载“ /training/pig/datetemp.txt'使用PigStorage()As(EventID:chararray,eventdate:chararray,count:int); grunt> dump inputfile;

    1热度

    1回答

    我们正在研究将一个巨大的N维数据结构(NetCDF文件)作为输入到Mapper函数的想法,而不必写入文本文件,然后加载到HDFS上。我们有一个已经拥有这个庞大数据结构的应用程序。所以我们想要跳过所有涉及从文本文件写入和读取的开销。 我们需要一些输入以下问题。 1)第三方应用程序可以直接将数据流传输到MapReduce吗? 2)如果以上可能,Will MapReduce会把这个DataStructu

    1热度

    1回答

    当我被教授mapreduce时,其中一个关键组件是组合器。它是映射器和Reducer之间的一个步骤,它基本上在映射阶段结束时运行Reducer,以减少映射器输出的数据行数。随着我需要处理的数据量的增加(多TB级),减少步骤变得过于缓慢。我和我的一位朋友交谈过,他说这也是他的经验,而不是使用组合器,他使用散列函数分割他的缩减键,这减少了减少步骤中每个键的值的数量。我试过这个,它工作。有没有其他人有组

    1热度

    2回答

    是否有任何方法来运行现有的mapreduce程序,以便它只处理输入文件的给定偏移量? 例如: 如果偏移量为500,mapreduce程序应该从第500个字节开始处理输入文件。

    7热度

    5回答

    我是hadoop的新手。我跟着maichel-noll教程在单个节点中设置hadoop。我尝试运行WordCount程序。这是我使用的代码: import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.