2017-04-19 25 views
0

在我mrjob.conf我做了额外的音量设置:亚马逊EMR:当连接EBS卷到实例如何确保这个量是用来

Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250 
    Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.VolumeType: gp2 
    Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumesPerInstance: 1 

当我运行在群集我见对于每个实例,我都有10GB和250GB的卷。但EMR是否使用250GB存储空间来保存数据?如果不是如何使它工作?

+0

我会提醒的是,EMR的最佳建议是在可能的情况下实际使用EMRFS - 即直接将S3挂载为HDFS挂载点。在你的情况,是的,我相信它会自动拿起250 GB硬盘作为HDFS写入空间? EMR使用250GB存储来保存数据吗? – Henry

+0

,哪种数据以及谁在生成数据? –

回答

1

是,如果您在集群启动期间使用EMR API供应EBS卷,EMR会挂载,格式化和使用HDFS的EBS卷。

您可以看到它挂载到像/ mnt1 /,/ mnt2/etc这样的点以及包含在hdfs-site.xml中的那些挂载点。所有写入HDFS的写入将根据hdfs-site.xml中设置的策略自动在这些安装中进行负载平衡。当前的策略是*所有写入都转到最大卷,直到剩余空间大致与剩余卷相等,然后开始使用循环。

请注意,挂载点可能不会被所有内容使用,例如EMR可能不会使用这些挂载来将纱线容器日志存储在本地磁盘上。 (您可以稍后配置)