1

我非常努力地了解如何使用Dynamo/ElasticSearch来支持AWS数据湖工作(元数据/目录)。看起来好像您会在Dynamo中记录您的zip归档文件的各个S3位置以及您希望在ES中搜索的任何其他元数据/属性。如果这是正确的,你将如何使用这两者来支持这一点。我试图找到更详细的信息,关于如何正确地将两者配对在一起,但一直不成功。其他人拥有的任何信息/文档都会很棒。很好的机会,我忽略了一些明显的例子/文档。AWS Data Lake Dynamo与ElasticSearch

我所想象的是一样的东西如下:

  • 用户可以搜索元数据/ ES中会指向高级别匹配S3桶/分区属性。
  • DynamoDB中的搜索将针对ES结果中的密钥部分(分区/存储区)
  • 搜索很可能会导致许多个别对象/密钥被处理,提取等。
+0

是的,这听起来是对的。使用每个服务来做最好的事情。 S3 - 可靠的存储。 DynamoDB - 快速搜索分区键。 Elasticsearch - 快速准确的搜索能力。您只需在所有3个服务中共享一个唯一的ID(uuid)即可将记录链接在一起。 –

回答

0

我与我们的AWS代表谈过话,他向我介绍了这篇文章。这是一个很好的起点。 AWS Data Lake。这似乎回答了我关于组件和方法的用户的一些问题,这在我以前是不清楚的。

亮点:

  • 蓝图实现数据的湖泊。结合S3/DynamoDB/ES很常见。
  • 实现有许多变化。用RDS代替ES/DynamoDB,仅使用ES等。
  • 我们很可能会先从RDS开始锻炼过程,然后转移到DyanmoDB/ES。