1
我正在实现Lambda体系结构,分别针对批处理层和速度层使用spark和spark流。到目前为止,我在HBase中存储了批处理视图和实时视图,但在不同的表中。如何在Lambda架构中实现合并操作?
我被困在如何合并由批处理视图生成的批处理视图和由速度层生成的实时视图,以便进行查询。如何做到这一点?我应该将它们转储到同一个HBase表中,客户端直接查询HBase吗?
我正在实现Lambda体系结构,分别针对批处理层和速度层使用spark和spark流。到目前为止,我在HBase中存储了批处理视图和实时视图,但在不同的表中。如何在Lambda架构中实现合并操作?
我被困在如何合并由批处理视图生成的批处理视图和由速度层生成的实时视图,以便进行查询。如何做到这一点?我应该将它们转储到同一个HBase表中,客户端直接查询HBase吗?
首先,我认为HBase不是实时视图的最佳选择,因为重载随机读取/随机写入不是HBase最强大的一面。
无论如何,一个办法可以是以下几点:在星火
DataFrame
/DataSet
例如DataFrame
/DataSet
太这样做是非常简化流程可以在我的github上可以找到