hadoop-streaming

    1热度

    1回答

    我遇到了这些问题,同时使用Hadoop流。我在python 1)总库包 编写代码根据Hadoop的流媒体文件(http://hadoop.apache.org/common/docs/r0.20.0/streaming.html#Working+with+the+Hadoop+Aggregate+Package+%28the+-reduce+aggregate+option%29),有一个内置的聚

    0热度

    2回答

    我有一个快速的Hadoop Streaming问题。如果我正在使用Python流,并且我有我的映射器/减速器需要但未默认安装的Python包,我是否还需要在所有Hadoop机器上安装这些包,或者是否有某种序列化将它们发送到远程机器?

    5热度

    1回答

    我读Hadoop in Action,发现在Java使用MultipleOutputFormat和MultipleOutputs类我们可以减少数据到多个文件,但我不知道如何使用Python streaming实现相同的目的。 例如: /out1/part-0000 mapper -> reducer \ out2/part-0000 如果有人知道,听说过,做过类似的事

    2热度

    3回答

    所以当我们使用Java写map/reduce程序,地图收集数据并接收减速每个键的值列表,像 Map(k, v) -> k1, v1 then shuffle and sort happens then reducer gets it reduce(k1, List<values>) 去努力。但是否可以使用streaming与python相同?我使用了this作为参考,似

    0热度

    2回答

    下面是这种情况 Reducer1 / Mapper - - Reducer2 \ ReducerN 在减速,我想写在不同文件中的数据,可以说减速看起来像 def reduce(): for line in sys.STDIN: if(line == type1): create_type_1_file(line)

    1热度

    1回答

    我使用Dumbo来处理一些Hadoop Streaming作业。我有一堆JSON字典,每个字典都包含一篇文章(多行文本)和一些元数据。我知道Hadoop在提供大文件时性能最好,所以我想将所有JSON字典连接成一个文件。 问题是,我不知道如何让Hadoop将每个字典/文章作为单独的值读取,而不是在换行符上拆分。我如何告诉Hadoop使用自定义记录分隔符?或者,也许我可以将所有的JSON字典放入一个列

    1热度

    2回答

    我可以在我的/usr/local/hadoop/logs路径上看到所有的hadoop日志 但是我可以在哪里看到应用程序级日志?例如: mapper.py import logging def main(): logging.info("starting map task now") // -- do some task -- // print statement

    3热度

    3回答

    我有一个映射器,在处理数据时,将输出分类为3种不同类型(type是输出键)。我的目标是通过reducer创建3个不同的csv文件,每个文件都带有一个标题行的所有数据。 键值可以更改并且是文本字符串。 现在,理想情况下,我想有3个不同的减速器,每个减速器只会得到一个键值和整个值列表。 除此之外,这看起来并不起作用,因为这些键未映射到特定的缩减器。 在其他地方的答案是编写一个自定义的分区类,将每个需要