2015-02-24 24 views
1

我正在实现Lambda体系结构,分别针对批处理层和速度层使用spark和spark流。到目前为止,我在HBase中存储了批处理视图和实时视图,但在不同的表中。如何在Lambda架构中实现合并操作?

我被困在如何合并由批处理视图生成的批处理视图和由速度层生成的实时视图,以便进行查询。如何做到这一点?我应该将它们转储到同一个HBase表中,客户端直接查询HBase吗?

回答

0

首先,我认为HBase不是实时视图的最佳选择,因为重载随机读取/随机写入不是HBase最强大的一面。

无论如何,一个办法可以是以下几点:在星火

  • 缓存批次视图DataFrame/DataSet例如
  • 通过通过星火获取的实时性和它表示为DataFrame/DataSet
  • 创建合适的管道以在需要时合并这些结构,例如在从UI请求等

这样做是非常简化流程可以在我的github上可以找到