elastic-map-reduce

    1热度

    1回答

    说我在Amazon弹性地图降低上启动集群并拥有一个主节点实例,2个核心节点实例和15个任务节点实例。 我想我使用mapreduce作业和增量上传将大约1TB的数据上传到hbase。 现在 - 如何查找表的大小和区域划分(字节)。通常在CDH上我会做一个hadoop fs -du/hbase。但是我的主节点上没有/ hbase目录。 我也很想知道区域服务器分配是如何工作的。所以,即使我有100个区域

    1热度

    3回答

    EMR新手警报创建用户日志: 我们必须包含我们网站的使用数据大日志。客户通过其客户ID进行身份验证和识别。每当我们尝试解决客户问题时,我们都会grep通过所有日志(使用customer_id作为搜索条件)并将结果传送到文件中。然后我们使用结果文件来解决问题。我们正在考虑使用EMR创建每个客户的日志文件,因此我们不必按需创建每个客户的日志文件。 EMR会为我们每个小时为每个客户做到这一点。 我们正在

    1热度

    1回答

    我试图在Amazon Elastic MapReduce上使用hadoop,其中有数千个地图任务要执行。如果有一小部分任务失败,我确定,但是,亚马逊关闭了这项工作,并在第一个映射器失败时失去了所有结果。有没有可用于增加允许的失败作业数量的设置?谢谢。

    2热度

    1回答

    我正在使用AWS Elastic MapReduce,我希望能够设置日志级别。例如,我想为log.isDebugEnabled()返回true。谷歌搜索有一点使我发现这个博客文章: http://vangjee.wordpress.com/2012/03/24/an-approach-to-controlling-logging-on-amazon-web-services-aws-elastic

    2热度

    1回答

    我有几个文本,我想知道行号和文件出现的单词。 我得到的文件很好,但没有行号。 这是地图 #!/usr/bin/env python import sys import os find = 'but' #word to find linesCont = 0 file = os.environ["map_input_file"] for line in sys.stdin:

    0热度

    1回答

    你怎么确定 只有4地图和2减少有 因为当我使用1大实例 它有时会给我6地图2减少 随机没有。 我试图把mapred.map.tasks = 4 在额外的参数,而settingup工作 也didn`t工作

    2热度

    1回答

    我有一个映射,与减速机的工作很好,当我在管道版本上运行它们: cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py 我用弹性mapreducer向导,加载的输入,输出,引导等。引导成功,但我仍然在执行中出现错误。 这是我得到我的标准错误的错误步骤1中...... + /etc/init.d/hadoop-state-pusher-cont

    0热度

    1回答

    我在Amazon AWS上使用Elastic Mapreduce基础结构。流量自动终止。根据亚马逊控制台的最后状态更改原因是:“作业流程中的所有奴隶都已终止”。 创建jobflow命令: elastic-mapreduce --create --name MyCluster --alive --instance-group master --instance-type m1.xlarge --in

    6热度

    1回答

    当我运行使用m1.large作为要由作业流创建的hadoop实例的实例类型的Amazon EMR作业时,出现“设备上没有剩余空间”错误。工作生成约。最大10 GB的数据,因为m1.large实例的容量应该是420GB * 2(根据:EC2 instance types)。我很困惑10GB数据如何导致“磁盘空间已满”类型的消息。我意识到如果我们已经完全耗尽了文件系统允许的inode总数,也可能会产生

    0热度

    1回答

    如何将文件保存到./ssh目录(我正在使用mac osx)。我应该在命令行中输入什么内容,或者如何将下载的文件保存到./ssh? (更多情况下,我使用亚马逊MapReduce和希望保存EMR.pem文件SSH)。