现在我面临着创建数据仓库以存储和处理大量数据的挑战。估计金额每天超过70亿美元。数据应该保存7天。平均事件大小是〜0.5 - 1 Kb。我们需要处理的数据为:选择大数据仓库
- 生成报告;
- 火车模型。
目前我评价:
- 谷歌的BigQuery
- 红移
- Stratio +卡桑德拉+ AWS + EMR + EBS
- Cloudera公司+ AWS
所以我感兴趣于:
- 解决方案,您贵公司(框架,安装,数据库,节点的数量等)
- 任何实际成本的例子/比较内使用,如果可能的
- 管理的复杂性(DEVOPS)
现在我面临着创建数据仓库以存储和处理大量数据的挑战。估计金额每天超过70亿美元。数据应该保存7天。平均事件大小是〜0.5 - 1 Kb。我们需要处理的数据为:选择大数据仓库
目前我评价:
所以我感兴趣于:
我们使用BigQuery中,优点:
更多的用例和架构你会发现:http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup
从您的经历中找到的任何缺点? –
缺乏专业支持,奇怪的API错误,需要非常先进的SQL开发者,但这很有趣。 – Pentium10
我最近在Mark Lit的系列文章中,比较了BigQuery,Spark,Hive,Presto,ElasticSearch,AWS Redshift,AWS EMR和Google Dataproc:
摘要摘要:
但是你可以得到的最好的基准是你自己的:尝试BigQuery应该是快速和容易的。然后尝试找到另一个可以快速加载数据的平台,查询速度更快,或者接近价格。马克试过了,那是他的发现。
感谢好帖子 –
有关**专业服务器或网络相关基础设施管理**的问题,除非直接涉及编程或编程工具,否则无法用于堆栈溢出。您可能可以在[服务器故障](http://serverfault.com/tour)上获得帮助。 –
@MoralesBatovski不是,这个话题更大,涉及到来自Stratio和Cloudera公司的软件解决方案和框架。而bigquery是有弹性的,只能通过API ... –
过于宽泛和offtopic。 –