hadoop-streaming

    0热度

    1回答

    我见过一种技术(在stackoverflow上),用于使用zip文件执行hadoop streaming作业来存储引用的python模块。 我在作业执行的映射阶段出现了一些错误。我相当确定它与拉链模块加载有关。 要调试脚本,我已经运行我的数据通过sys.stdin设置/ sys.stdout的使用命令行管到我的映射器和减速机等等这样的事情: 头inputdatafile.txt | ./mappe

    0热度

    1回答

    我是hadoop框架中的新手。所以如果有人能指导我通过这个,那会有所帮助。 我有两种类型的文件。 迪拉/ - > FILE_A,FILE_B,FILE_C DIRB/- > another_file_a,another_file_b ... 目录中的文件A包含tranascation信息。 因此,像: id, time_stamp 1 , some_time_stamp 2 ,

    2热度

    3回答

    嗨我想在hadoop安装的服务器上运行hadoop,但我不知道hadoop所在的目录。服务器由服务器管理员配置。 为了加载hadoop,我使用dotkit包中的use命令。 可能有几种解决方案,但希望知道hadoop软件包的安装位置,如何设置$ HADOOP_HOME变量以及如何approp运行hadoop流式作业,例如$ HADOOP_HOME/bin/hadoop jar $ HADOOP_H

    0热度

    1回答

    我是新来hadoop框架和地图减少抽象。 基本上,我想找到一个巨大的文本文件中的最小号(分隔 “”) 所以,这里是我的代码 mapper.py #!/usr/bin/env python import sys # input comes from STDIN (standard input) for line in sys.stdin: # remove leading and tra

    1热度

    1回答

    使用猪或hadoop流,有人加载和解压缩压缩文件?原始的csv文件是使用pkzip压缩的。

    6热度

    2回答

    当我运行“hadoop job -status xxx”时,输出以下一些列表。 Rack-local map tasks=124 Data-local map tasks=6 机架本地地图任务和数据本地地图任务有什么区别?

    2热度

    2回答

    我试图编写一个Perl脚本,该脚本将作为映射器在Elastic MapReduce的Streaming功能下运行。我试图使用Net :: Amazon :: S3(或者更可移植的Amazon :: S3)来执行一些额外的来自S3的文件的I/O。该模块不在默认AMI上,因此我试图在引导操作脚本中使用CPAN来安装它。引导程序脚本目前包含: 的perl -MCPAN -e 'CPAN ::壳 - >安

    1热度

    2回答

    我需要使用存储在本地文本文件中的信息初始化映射器中的对象。有没有这样的机制?

    1热度

    1回答

    我会大致划分工作分为两个部分来完成: 我有大量的数据(折合人民币约1个TB,分成数百个文件),我”通过DistCp使用 这些数据将经Hadoop的数据流作业,采取行动从S3米复制到HDFS(一个简单的映射,与减速机,用Python编写的) 现在,我将不得不等待直到所有的数据都合成为止去HDFS,只有在那之后我才能开始我的实际工作。这里有一个问题:考虑到DISTCP本身就是一个map-reduce作

    1热度

    1回答

    我有一个运行Map-Reduce V1的CDH4集群。当我试图从压缩包安装了Oozie CDH4并配置它按所给的指示在 https://ccp.cloudera.com/display/CDH4DOC/Oozie+Installation#OozieInstallation-Configuringthehadoopversion 在启动服务,我得到的日志 INFO: Starting Servle