2016-04-06 47 views
2

我有一组AWS实例,其中Apache Hadoop发布与apache spark一起设置 我试图通过Spark流访问DynamoDb以读取和写入表中但是 在编写Spark- DynamoDB代码,我必须知道emr-ddb-hadoop.jar是获取仅存在于EMR集群中的DynamoDB输入格式和OutputFormat所必需的。 在检查了几个博客之后,似乎只有EMR Spark才能访问它。 它是否正确?可以Spark没有EMR访问DynamoDb

但是我使用独立的Java SDK访问Dynamodb它工作得很好

+0

那么这个jar是可用的''com.amazonaws:aws-java-sdk-emr:1.10.68''尝试将它包含在你的'spark'中。 – avloss

+0

我试图在我的项目中包含上述依赖项,但emr-ddb-hadoop.jar未出现在项目 – Saurabh

+0

中的Maven依赖项文件夹中此外,哪个jar文件包含org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat和org.apache。 hadoop.dynamodb.read.DynamoDBInputFormat – Saurabh

回答

3

我得到了问题的解决。 我从EMR下载了emr-ddb-hadoop.jar文件并在我的环境中使用它。 请注意:要运行DynamoDB,我们只需要上面的jar。