hadoop-streaming

0热度

1回答

我见过一种技术（在stackoverflow上），用于使用zip文件执行hadoop streaming作业来存储引用的python模块。我在作业执行的映射阶段出现了一些错误。我相当确定它与拉链模块加载有关。要调试脚本，我已经运行我的数据通过sys.stdin设置/ sys.stdout的使用命令行管到我的映射器和减速机等等这样的事情：头inputdatafile.txt | ./mappe

0热度

1回答

合并hadoop中的两个文件

我是hadoop框架中的新手。所以如果有人能指导我通过这个，那会有所帮助。我有两种类型的文件。迪拉/ - > FILE_A，FILE_B，FILE_C DIRB/- > another_file_a，another_file_b ... 目录中的文件A包含tranascation信息。因此，像： id, time_stamp 1 , some_time_stamp 2 ,

2热度

3回答

HADOOP_HOME和hadoop streaming

嗨我想在hadoop安装的服务器上运行hadoop，但我不知道hadoop所在的目录。服务器由服务器管理员配置。为了加载hadoop，我使用dotkit包中的use命令。可能有几种解决方案，但希望知道hadoop软件包的安装位置，如何设置$ HADOOP_HOME变量以及如何approp运行hadoop流式作业，例如$ HADOOP_HOME/bin/hadoop jar $ HADOOP_H

0热度

1回答

找到最小数量的hadoop streaming python

我是新来hadoop框架和地图减少抽象。基本上，我想找到一个巨大的文本文件中的最小号（分隔 “”）所以，这里是我的代码 mapper.py #!/usr/bin/env python import sys # input comes from STDIN (standard input) for line in sys.stdin: # remove leading and tra

1热度

1回答

Hadoop猪或流文件和Zip文件

使用猪或hadoop流，有人加载和解压缩压缩文件？原始的csv文件是使用pkzip压缩的。

6热度

2回答

机架本地地图任务和数据本地地图任务有什么区别？

当我运行“hadoop job -status xxx”时，输出以下一些列表。 Rack-local map tasks=124 Data-local map tasks=6 机架本地地图任务和数据本地地图任务有什么区别？

2热度

2回答

Elastic MapReduce引导程序安装Perl模块

我试图编写一个Perl脚本，该脚本将作为映射器在Elastic MapReduce的Streaming功能下运行。我试图使用Net :: Amazon :: S3（或者更可移植的Amazon :: S3）来执行一些额外的来自S3的文件的I/O。该模块不在默认AMI上，因此我试图在引导操作脚本中使用CPAN来安装它。引导程序脚本目前包含：的perl -MCPAN -e 'CPAN ::壳 - >安

1热度

2回答

我可以将本地文件的内容传递给Hadoop Pipes作业

我需要使用存储在本地文本文件中的信息初始化映射器中的对象。有没有这样的机制？

1热度

1回答

DistCp使用用Hadoop流作业

我会大致划分工作分为两个部分来完成：我有大量的数据（折合人民币约1个TB，分成数百个文件），我”通过DistCp使用这些数据将经Hadoop的数据流作业，采取行动从S3米复制到HDFS（一个简单的映射，与减速机，用Python编写的）现在，我将不得不等待直到所有的数据都合成为止去HDFS，只有在那之后我才能开始我的实际工作。这里有一个问题：考虑到DISTCP本身就是一个map-reduce作

1热度

1回答

Oozie服务未启动

我有一个运行Map-Reduce V1的CDH4集群。当我试图从压缩包安装了Oozie CDH4并配置它按所给的指示在 https://ccp.cloudera.com/display/CDH4DOC/Oozie+Installation#OozieInstallation-Configuringthehadoopversion 在启动服务，我得到的日志 INFO: Starting Servle