amazon-emr

1热度

1回答

我在DynamoDB中有一个大小为15 GB的表。现在，我需要将一些基于时间戳（以db为单位）的数据传输到另一个DynamoDB。这里最有效的选择是什么？一）转让给S3，与大熊猫或好歹过程，并把在其他表（数据是huge.i觉得这可能需要大量的时间） b）通过DataPipeLine（读了很多，但不认为我们可以把查询放在那里） c）通过EMR和Hive（这似乎是最好的选择，但是可以通过pytho

1热度

1回答

如何在EMR集群中跨Jupyter笔记本使用自定义用户定义函数？

我想与我们的数据科学家在EMR集群中使用pyspark和jupyter的其他集群共享我在Scala中创建的udfs。这可能吗？怎么样？

0热度

2回答

EMRFS是否使S3与外部客户端保持一致

如果我在HFDS或本地文件系统中有文件，是否可以在启用了EMRFS的情况下将其复制到S3，请立即关闭群集并确保文件可用一旦这个复制操作完成，这两个列表和阅读外部读者？或者EMRFS在其启用的特定EMR群集内是否一致？什么会通过EFSFS从HDFS复制文件到S3看起来像？从本地文件系统？

0热度

2回答

未将配置单元结果保存到S3存储桶

我在将配置单元输出保存到S3时遇到问题。我试过ssh ing到主节点并在Hive中运行我的命令，但它不保存输出。我也曾尝试在AWS中的EMR控制台中运行Hue中的命令，但仍不保存到S3。我还将该脚本添加为步骤，但仍不能保存。我能够得到结果的唯一方法是在Hue中运行它，然后单击以查看结果并以此方式下载，然后将它们推送到S3。我无能为力，为什么会发生这种情况。这是我正在运行的查询。 with temp

0热度

1回答

WARN mapreduce.LoadIncrementalHFiles：跳过非目录hdfs：在EMR上

我想在Hbase中使用mapreduce来批量加载文本文件。一切工作正常，但是当我做最后一步的批量加载时，我得到警告和我的mapreduce工作卡住了。 17/06/15 10:22:43 INFO mapreduce.Job: Job job_1495181241247_0013 completed successfully 17/06/15 10:22:43 INFO mapreduce.

2热度

1回答

亚马逊网络服务EMR定价

只是一个简单的问题。当我在EMR集群中创建并运行步骤时。亚马逊开始收费的确切时间是什么时候？费用是否包括集群启动，引导和终止时间？

5热度

1回答

权限被拒绝：用户=飞艇在使用AWS中EMR集群

我创建pyspark结构化的流节目％spark.pyspark解释，并试图在齐柏林笔记本执行： %spark.pyspark query_window = windowedCounts \ .writeStream \ .outputMode("complete") \ .format("memory") \ .queryName

0热度

1回答

AWS EMR Spark步骤参数错误

我通过AWSCLI向EMR提交Spark作业，EMR步骤和spark配置作为单独的json文件提供。出于某种原因，我的主类的名字作为不必要的命令行参数传递给我的Spark jar，导致作业失败。 AWSCLI命令： aws emr create-cluster \ --name "Spark-Cluster" \ --release-label emr-5.5.0 \

1热度

1回答

在pyspark中的映射器内导入错误

我正在处理一个与networkx有关的EMR YARN群集。我想运行映射器内的networkx包内的算法之一，并收到错误说没有模块名称“装饰器”，并立即失败，与下面的错误：文件“./networkx- 1.11-py2.7.egg/networkx/utils/init .py“，第2行，在文件”./networkx-1.11-py2.7.egg/networkx/utils/decorat

0热度

1回答

根据自定义CloudWatch指标自动缩放Aws EMR

现在，您可以根据CloudWatch指标对EMR群集进行扩展，例如https://aws.amazon.com/blogs/big-data/dynamically-scale-applications-on-amazon-emr-with-auto-scaling/。您可以根据自定义CloudWatch指标设置自动缩放值吗？例如，，使用火花等待批量指标？