我有一个Web应用程序需要发送有关其使用情况的报告,我想使用Amazon RedShift作为此目的的数据仓库, 我应该如何收集数据 ?将数据(增量式)加载到Amazon Redshift,S3和DynamoDB中vs插入
每次,用户与我的应用程序进行交互,我想报告..所以我应该什么时候写文件到S3?和多少? 我的意思是: - 如果不立即发送信息,那么我可能会因连接丢失或系统中的某个错误而丢失它,因为它已被收集并准备好发送到S3 .. 。 - 如果我在每次用户交互时将文件写入S3,我最终会得到数百个文件(每个文件上的数据都很少),需要在复制到RedShift后进行管理,排序和删除。似乎不是一个好的解决方案。
我在想什么?我应该使用DynamoDB吗?我应该使用简单的插入到Redshift中吗?
如果我确实需要将数据写入DynamoDB,我应该在复制后删除保留表。最佳实践是什么?
在任何情况下,避免RedShift中数据重复的最佳做法是什么?
感谢帮助!
http://stackoverflow.com/questions/38300416/how-to-load-files-from-zip-files-present-in-s3-to-redshift-using-copy-command – AWSDeveloper