hadoop-streaming

1热度

1回答

我遇到了这些问题，同时使用Hadoop流。我在python 1）总库包编写代码根据Hadoop的流媒体文件（http://hadoop.apache.org/common/docs/r0.20.0/streaming.html#Working+with+the+Hadoop+Aggregate+Package+%28the+-reduce+aggregate+option%29），有一个内置的聚

0热度

2回答

使用Hadoop Streaming管理依赖关系？

我有一个快速的Hadoop Streaming问题。如果我正在使用Python流，并且我有我的映射器/减速器需要但未默认安装的Python包，我是否还需要在所有Hadoop机器上安装这些包，或者是否有某种序列化将它们发送到远程机器？

5热度

1回答

Python流：如何减少到多个输出？（它可能与Java虽然）

我读Hadoop in Action，发现在Java使用MultipleOutputFormat和MultipleOutputs类我们可以减少数据到多个文件，但我不知道如何使用Python streaming实现相同的目的。例如： /out1/part-0000 mapper -> reducer \ out2/part-0000 如果有人知道，听说过，做过类似的事

2热度

3回答

hadoop streaming：如何给reducer键值列表？

所以当我们使用Java写map/reduce程序，地图收集数据并接收减速每个键的值列表，像 Map(k, v) -> k1, v1 then shuffle and sort happens then reducer gets it reduce(k1, List<values>) 去努力。但是否可以使用streaming与python相同？我使用了this作为参考，似

0热度

2回答

Hadoop的流：写输出到不同的文件

下面是这种情况 Reducer1 / Mapper - - Reducer2 \ ReducerN 在减速，我想写在不同文件中的数据，可以说减速看起来像 def reduce(): for line in sys.STDIN: if(line == type1): create_type_1_file(line)

1热度

1回答

Hadoop Streaming多行输入

我使用Dumbo来处理一些Hadoop Streaming作业。我有一堆JSON字典，每个字典都包含一篇文章（多行文本）和一些元数据。我知道Hadoop在提供大文件时性能最好，所以我想将所有JSON字典连接成一个文件。问题是，我不知道如何让Hadoop将每个字典/文章作为单独的值读取，而不是在换行符上拆分。我如何告诉Hadoop使用自定义记录分隔符？或者，也许我可以将所有的JSON字典放入一个列

1热度

2回答

hadoop streaming：如何查看应用程序日志？

我可以在我的/usr/local/hadoop/logs路径上看到所有的hadoop日志但是我可以在哪里看到应用程序级日志？例如： mapper.py import logging def main(): logging.info("starting map task now") // -- do some task -- // print statement

3热度

3回答

hadoop流确保每个reducer一个密钥

我有一个映射器，在处理数据时，将输出分类为3种不同类型（type是输出键）。我的目标是通过reducer创建3个不同的csv文件，每个文件都带有一个标题行的所有数据。键值可以更改并且是文本字符串。现在，理想情况下，我想有3个不同的减速器，每个减速器只会得到一个键值和整个值列表。除此之外，这看起来并不起作用，因为这些键未映射到特定的缩减器。在其他地方的答案是编写一个自定义的分区类，将每个需要