amazon-emr

    1热度

    1回答

    我在DynamoDB中有一个大小为15 GB的表。现在,我需要将一些基于时间戳(以db为单位)的数据传输到另一个DynamoDB。 这里最有效的选择是什么? 一)转让给S3,与大熊猫或好歹过程,并把在其他表(数据是huge.i觉得这可能需要大量的时间) b)通过DataPipeLine(读了很多,但不认为我们可以把查询放在那里) c)通过EMR和Hive(这似乎是最好的选择,但是可以通过pytho

    1热度

    1回答

    我想与我们的数据科学家在EMR集群中使用pyspark和jupyter的其他集群共享我在Scala中创建的udfs。 这可能吗?怎么样?

    0热度

    2回答

    如果我在HFDS或本地文件系统中有文件,是否可以在启用了EMRFS的情况下将其复制到S3,请立即关闭群集并确保文件可用一旦这个复制操作完成,这两个列表和阅读外部读者?或者EMRFS在其启用的特定EMR群集内是否一致?什么会通过EFSFS从HDFS复制文件到S3看起来像?从本地文件系统?

    0热度

    2回答

    我在将配置单元输出保存到S3时遇到问题。我试过ssh ing到主节点并在Hive中运行我的命令,但它不保存输出。我也曾尝试在AWS中的EMR控制台中运行Hue中的命令,但仍不保存到S3。我还将该脚本添加为步骤,但仍不能保存。我能够得到结果的唯一方法是在Hue中运行它,然后单击以查看结果并以此方式下载,然后将它们推送到S3。我无能为力,为什么会发生这种情况。这是我正在运行的查询。 with temp

    0热度

    1回答

    我想在Hbase中使用mapreduce来批量加载文本文件。 一切工作正常,但是当我做最后一步的批量加载时,我得到警告和我的mapreduce工作卡住了。 17/06/15 10:22:43 INFO mapreduce.Job: Job job_1495181241247_0013 completed successfully 17/06/15 10:22:43 INFO mapreduce.

    2热度

    1回答

    只是一个简单的问题。当我在EMR集群中创建并运行步骤时。亚马逊开始收费的确切时间是什么时候?费用是否包括集群启动,引导和终止时间?

    5热度

    1回答

    我创建pyspark结构化的流节目%spark.pyspark解释,并试图在齐柏林笔记本执行: %spark.pyspark query_window = windowedCounts \ .writeStream \ .outputMode("complete") \ .format("memory") \ .queryName

    0热度

    1回答

    我通过AWSCLI向EMR提交Spark作业,EMR步骤和spark配置作为单独的json文件提供。出于某种原因,我的主类的名字作为不必要的命令行参数传递给我的Spark jar,导致作业失败。 AWSCLI命令: aws emr create-cluster \ --name "Spark-Cluster" \ --release-label emr-5.5.0 \

    1热度

    1回答

    我正在处理一个与networkx有关的EMR YARN群集。 我想运行映射器内的networkx包内的算法之一,并收到错误说没有模块名称“装饰器”,并立即失败,与下面的错误: 文件“./networkx- 1.11-py2.7.egg/networkx/utils/init .py“,第2行,在 文件”./networkx-1.11-py2.7.egg/networkx/utils/decorat

    0热度

    1回答

    现在,您可以根据CloudWatch指标对EMR群集进行扩展,例如https://aws.amazon.com/blogs/big-data/dynamically-scale-applications-on-amazon-emr-with-auto-scaling/。 您可以根据自定义CloudWatch指标设置自动缩放值吗?例如, ,使用火花等待批量指标?