amazon-emr

1热度

1回答

如何在设置DataPipeline以将DynamoDB数据导出到S3时计算'DynamoDB读取吞吐量比率'

我有一个带有〜16M记录的DynamoDB，其中每个记录的大小为4k。该表配置为自动调节目标利用率：70％，读取的最小配置容量：250和写入的最大配置容量：3000. 我试图设置数据管道将DynamoDB备份到S3。管道配置要求为Read Throughput Ratio，默认情况下为0.25。所以问题是如何计算Read Throughput Ratio备份大约1小时的表。我了解读取容量单位。

2热度

1回答

EMR集群中的Zeppelin未列出AWS胶水中的目录表

我想将AWS Glue Data Catalog用作Spark SQL的Metastore。我通过AWS控制台as instructed here启动了EMR群集。我能够从spark-shell中看到所有的粘贴目录表，但不能从Zeppelin中看到。是否有任何属性需要在Zeppelin属性配置中设置？在此先感谢。

1热度

1回答

使用boto3将现有EMR群集复制到新群集

使用boto3创建新群集时，我想使用现有群集（已终止）的配置并将其克隆。据我所知，emr_client.run_job_flow要求提供所有配置（Instances, InstanceFleets etc）作为参数。有没有什么办法可以从现有的群集中进行克隆，就像我可以从ews的aws控制台那样进行克隆。

0热度

1回答

如何在更改配置设置后重新启动EMR中的Spark服务？

我正在使用EMR-5.9.0，并且在更改了一些配置文件之后，我想重新启动服务以查看效果。我怎样才能做到这一点？我尝试使用列表initctl的查找服务的名称，如我在其他的答案，但没有运气看到...

1热度

2回答

当群集大小很大时，Spark作业失败，小时成功

我有一个需要三个输入并执行两个外部连接的spark任务。数据采用键值格式（String，Array [String]）。代码的最重要的部分是： val partitioner = new HashPartitioner(8000) val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner

6热度

1回答

如何调整EMR上的火花作业，以便在S3上快速写入大量数据

我有一个火花作业，我正在做两个数据框之间的外连接。第一个数据帧的大小为260 GB，文件格式为文本文件，分割为2200个文件，第二个数据帧的大小为2GB。将这两个文件加载到数据框本身需要10分钟。然后将大约260 GB的数据帧输出写入S3大约需要1个小时。这是我的集群信息。 emr-5.9.0 Master:1m3.2xlarge Core:c3.4large 5 machines

0热度

2回答

失败使用Spark在EMR

当AWS-EMR执行我的星火工作我试图读取从S3存储Avro的文件时，这个错误从S3阅读的Avro：这一点与版本： EMR - 5.5 0.0 EMR - 5.9.0 这是代码： val files = 0 until numOfDaysToFetch map { i => s"s3n://bravos/clicks/${fromDate.minusDays(i)}/*" } sp

0热度

1回答

pyspark模块不可用于spark正在使用的python实例

我正在使用我自己没有在AWS中设置的EMR。我想了解Python解释器的火花是使用在我的.bashrc我有以下设置export PYSPARK_PYTHON=/mnt/anaconda/bin/python 当我运行我们的火花提交命令我用sys.executable打印到路径python解释器，这确实是它使用的解释器。然而，当我专门去到该文件夹，运行Python的该实例与./python，

0热度

1回答

使用的GroupBy而从HDFS复制到S3到一个文件夹中的文件合并

我有以下文件夹中HDFS： hdfs://x.x.x.x:8020/Air/BOOK/AE/DOM/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/AE/INT/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/BH/INT/20171001/2017100101 hdfs://x.x.x.x:

0热度

1回答

Hive合并小ORC文件

我的输入包含大量的小ORC文件，我希望在一天的每一天结束，我想将数据拆分为100MB的块。我的输入和输出都是S3和环境中使用的电子病历，蜂巢参数，正在设置， set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti