选择大数据仓库

现在我面临着创建数据仓库以存储和处理大量数据的挑战。估计金额每天超过70亿美元。数据应该保存7天。平均事件大小是〜0.5 - 1 Kb。我们需要处理的数据为：选择大数据仓库

目前我评价：

所以我感兴趣于：

2016-05-24 Yuli Reiri

有关**专业服务器或网络相关基础设施管理**的问题，除非直接涉及编程或编程工具，否则无法用于堆栈溢出。您可能可以在[服务器故障]（http://serverfault.com/tour）上获得帮助。 –

@MoralesBatovski不是，这个话题更大，涉及到来自Stratio和Cloudera公司的软件解决方案和框架。而bigquery是有弹性的，只能通过API ... –

过于宽泛和offtopic。 –

我们使用BigQuery中，优点：

2016-05-24 12:46:03 Pentium10

从您的经历中找到的任何缺点？ –

缺乏专业支持，奇怪的API错误，需要非常先进的SQL开发者，但这很有趣。 – Pentium10

我最近在Mark Lit的系列文章中，比较了BigQuery，Spark，Hive，Presto，ElasticSearch，AWS Redshift，AWS EMR和Google Dataproc：

摘要摘要：

但是你可以得到的最好的基准是你自己的：尝试BigQuery应该是快速和容易的。然后尝试找到另一个可以快速加载数据的平台，查询速度更快，或者接近价格。马克试过了，那是他的发现。

2016-05-25 04:44:51

感谢好帖子 –

回答