我有关于如何从大型金融交易数据集中筛选相关记录的查询。我们使用Oracle 11g数据库,其中一个要求是生成各种标准的各种报告。筛选大型数据集的最佳方法
相关的表看起来大致是这样的:
trade_metadata 18m rows, 10 GB
trade_economics 18m rows, 15 GB
business_event 18m rows, 11 GB
trade_business_event_link 18m rows, 3 GB
我们的一个报告,现在正在老化运行(> 5小时)。底层proc已经被优化了一次又一次,但新的标准不断得到补充,所以我们开始再次挣扎。 proc是非常标准的 - 加入所有表格,并应用一系列where子句(最后一次是20)。
我想知道我是否有足够大的问题来考虑大数据解决方案,以便每隔几个月摆脱这种优化查询游戏。无论如何,这些数量只会上升。我已经阅读了一些关于Hadoop + HBase,Cassandra,Apache Pig等的内容,但对于这个领域来说很新,对于最佳的处理方式有点困惑。
我想这不是一个map-reduce问题。 HBase似乎提供过滤器,但我不确定他们的表现。可以在这里开明的人,请回答几个问题要问我:
- 是数据的大数据解决方案设置得足够大(我需要进入十亿俱乐部的第一个?)
- 如果是,将HBase的是一个很好的选择来实现这个?
- 即使产量稳步增长,我们也不会马上离开Oracle。我是否每天都用相关表中的转储填充HDFS?或者每天写三角洲文字?
非常感谢!
研究Sqoop将数据从oracle移动到Hbase。 Sqoop有能力完成全表导入以及增量更新。一旦数据在那里,我会建议你看看PIG生成报告。 – 2014-11-04 20:16:52
感谢Sqoop提示Steven。我会看看。那还有PIG。 – JVC 2014-11-05 06:59:21