hadoop-streaming

0热度

1回答

我想用hadoop流式传输，其中有一个用作映射器的java类。为了使问题简单，让我们假设的Java代码如下所示： [[email protected] java]$ cat a.dat abc [[email protected] java]$ cat a.dat | java Test abc [[email protected] java] 令： import java.io.*

-1热度

1回答

Hadoop中

转换一个JSON文件我的JSON文件，文件的每一行100GB看起来是这样的： {"field1":100, "field2":200, "field3":[{"in1":20, "in2":"abc"},{"in1":30, "in2":"xyz"}]} （它实际上要复杂得多，但对于这个会作为一个小的演示做的。）我想把它处理的东西，其每一行看起来是这样的： {"field1":100, "f

0热度

1回答

Hadoop的流不能访问

我运行此的hadoop streaming命令JAR档案： /home/hduser/hadoop/bin/hadoop jar /home/hduser/hadoop/share/hadoop/tools/lib /hadoop-*streaming*.jar -file audio.py -cacheArchive hdfs://localhost:54310/user/hduser

1热度

1回答

不能执行基于Python的Hadoop流作业

我有，我可以执行以下流作业成功 sudo -u hdfs hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar -input /sample/apat63_99.txt -output /foo1 -mapper 'wc -l' -numReduceTasks 0 但5节点的Hadoop

0热度

1回答

错误1200：意外的符号？

我正在猪身上编程，发生错误，我一直无法解决。这里是代码我试图运行： --Load files into relations month1 = LOAD 'hdfs:/data/big/data/weather/201201hourly.txt' USING PigStorage(','); month2 = LOAD 'hdfs:/data/big/data/weather/201202ho

-2热度

7回答

如何在PIG中导入/加载.csv文件？

让假设有限制的文本文件选项卡（datetemp.txt）我希望加载这个文本文件中猪进行处理，但是当我键入以下行其给我的错误是：咕噜> inputfile中=负载“ /training/pig/datetemp.txt'使用PigStorage（）As（EventID：chararray，eventdate：chararray，count：int）; grunt> dump inputfile;

1热度

1回答

是否可以将一个巨大的DataStructure直接提供给MapReduce进行处理而不加载到HDFS上？

我们正在研究将一个巨大的N维数据结构（NetCDF文件）作为输入到Mapper函数的想法，而不必写入文本文件，然后加载到HDFS上。我们有一个已经拥有这个庞大数据结构的应用程序。所以我们想要跳过所有涉及从文本文件写入和读取的开销。我们需要一些输入以下问题。 1）第三方应用程序可以直接将数据流传输到MapReduce吗？ 2）如果以上可能，Will MapReduce会把这个DataStructu

1热度

1回答

在hadoop streaming mapreduce中使用组合器（使用mrjob）

当我被教授mapreduce时，其中一个关键组件是组合器。它是映射器和Reducer之间的一个步骤，它基本上在映射阶段结束时运行Reducer，以减少映射器输出的数据行数。随着我需要处理的数据量的增加（多TB级），减少步骤变得过于缓慢。我和我的一位朋友交谈过，他说这也是他的经验，而不是使用组合器，他使用散列函数分割他的缩减键，这减少了减少步骤中每个键的值的数量。我试过这个，它工作。有没有其他人有组

1热度

2回答

现有的mapreduce程序是否可以从输入文件的指定偏移量运行

是否有任何方法来运行现有的mapreduce程序，以便它只处理输入文件的给定偏移量？例如：如果偏移量为500，mapreduce程序应该从第500个字节开始处理输入文件。

7热度

5回答

Hadoop Java错误：线程“main”中的异常java.lang.NoClassDefFoundError：WordCount（错误名称：org/myorg/WordCount）

我是hadoop的新手。我跟着maichel-noll教程在单个节点中设置hadoop。我尝试运行WordCount程序。这是我使用的代码： import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.