5

现在我面临着创建数据仓库以存储和处理大量数据的挑战。估计金额每天超过70亿美元。数据应该保存7天。平均事件大小是〜0.5 - 1 Kb。我们需要处理的数据为:选择大数据仓库

  • 生成报告;
  • 火车模型。

目前我评价:

  • 谷歌的BigQuery
  • 红移
  • Stratio +卡桑德拉+ AWS + EMR + EBS
  • Cloudera公司+ AWS

所以我感兴趣于:

  • 解决方案,您贵公司(框架,安装,数据库,节点的数量等)
  • 任何实际成本的例子/比较内使用,如果可能的
  • 管理的复杂性(DEVOPS)
+2

有关**专业服务器或网络相关基础设施管理**的问题,除非直接涉及编程或编程工具,否则无法用于堆栈溢出。您可能可以在[服务器故障](http://serverfault.com/tour)上获得帮助。 –

+0

@MoralesBatovski不是,这个话题更大,涉及到来自Stratio和Cloudera公司的软件解决方案和框架。而bigquery是有弹性的,只能通过API ... –

+0

过于宽泛和offtopic。 –

回答

1

我们使用BigQuery中,优点:

  • SQL,基于列
  • 支持列JSON数据 - >优点,非结构化
  • 非常便宜1 PB每月大约21K美元。由谷歌
  • 管理服务,没有DEVOPS
  • 100 000行/秒的摄取能力
  • 看到幻灯片#24从链接的演示文稿

更多的用例和架构你会发现:http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup

+0

从您的经历中找到的任何缺点? –

+2

缺乏专业支持,奇怪的API错误,需要非常先进的SQL开发者,但这很有趣。 – Pentium10

4

我最近在Mark Lit的系列文章中,比较了BigQuery,Spark,Hive,Presto,ElasticSearch,AWS Redshift,AWS EMR和Google Dataproc:

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

摘要摘要:

  • 同一数据集(1十亿行),相同的查询,很多技术和配置。
  • BigQuery是运行查询最快的:2秒。
  • 默认情况下,BigQuery是唯一一个快速搜索:无需优化或需要数据预处理。 25分钟内装载了10亿行数据,并准备好查询数据。
  • 其他解决方案需要数小时才能加载数据(成本非常高),而且比BigQuery慢了许多倍。

但是你可以得到的最好的基准是你自己的:尝试BigQuery应该是快速和容易的。然后尝试找到另一个可以快速加载数据的平台,查询速度更快,或者接近价格。马克试过了,那是他的发现。

+0

感谢好帖子 –