lambda-architecture

    1热度

    1回答

    我正在实现Lambda体系结构,分别针对批处理层和速度层使用spark和spark流。到目前为止,我在HBase中存储了批处理视图和实时视图,但在不同的表中。 我被困在如何合并由批处理视图生成的批处理视图和由速度层生成的实时视图,以便进行查询。如何做到这一点?我应该将它们转储到同一个HBase表中,客户端直接查询HBase吗?

    1热度

    1回答

    我想构建用于预测性维护的实时应用程序。 我曾想过使用Hbase与Phoenix。 Phoenix在HBase上提供SQL层。 我读过Hbase适合大数据,比如1亿行加++。 但我的应用程序数据目前没有数据。如果开始时只有少量数据,Hbase数据库如何反应? HBase是实时网络应用的一个很好的解决方案吗? 我想要一个像系统一样的lambda体系结构。批处理和流处理。 HDFS上面的HBase会成为

    1热度

    1回答

    我在lambda体系结构上阅读了Nathan Marz的书。 我实际上正在对此解决方案进行概念验证。 我难以构建我的Jcascalog查询。 这是我们感兴趣的那块我节俭架构: union ArticlePropertyValue { 1: decimal quantity, 2: string name; } union ArticleID { 1: int i

    0热度

    1回答

    新手在这里。尝试使用Pail从Nathan Marz的书Big Data DFS Datastore运行代码。我究竟做错了什么?尝试连接到HDFS VM。试图用文件替换hdfs。任何帮助赞赏。 public class AppTest { private App app = new App(); private String path = "hdfs:////192.168.

    1热度

    2回答

    在我的lambda架构中,我在讨论是否使用HDFS或Cassandra来存储我的不可变数据。我需要Cassandra来处理在线请求等,因此它是技术栈的强制性部分。现在,如果我不需要,我不想将新工具(HDFS)引入到堆栈中。所以我的问题是,如果我不使用HDFS并使用Cassandra来托管我的不可变数据,我将会丢失什么。 编辑: 我明白HDFS是一种分布式文件系统,Cassandra是的NoSQL数

    1热度

    1回答

    我一直在阅读Nathan Marz的'article关于如何用Lambda架构击败CAP定理,并不明白不变数据如何使最终一致性更简单。 以下段落从文章采取: 的关键在于数据是不可变的。不可变的数据意味着没有更新这样的事情,所以一块数据的不同副本不可能变得不一致。这意味着没有发散值,矢量时钟或读取修复。从查询的角度来看,一段数据存在或不存在。数据上只有数据和功能。你不需要做任何事情来强化最终的一致性

    0热度

    1回答

    作为存储系统的Kafka可以是长期数据的数据存储。它可以复制和分发没有问题。那么我可以从Kafka中的所有历史数据创建RDD并创建批处理视图,然后将其与Spark Streaming Views结合使用?

    1热度

    1回答

    我想用一个简单的例子来实现lambda架构。我无法将我的技术堆栈放入每层lambda体系结构中。 我想要在twitter推文中实时查找前10个热门话题标签。我列出了http://lambda-architecture.net/的每一层野兔的目的。 所有数据进入系统被分派到两个批次层 和用于处理的速度层。 的批次层有两个作用:(ⅰ)管理所述数据集的主 (不可变的,追加只设置原始数据),和(ii)预先

    1热度

    2回答

    我正在构建一个lambda体系结构,并且需要Spark作为它的批处理部分,以定期或完成后立即重新启动,或者通过Spark Streaming作业调用重新启动。我查看了一些东西,我可能不了解Spark上下文,但不确定我是否可以将Spark上下文放在一个循环中。任何人都可以提供快速指导吗?另一个快速的问题是,考虑到会有数据不断被添加到HBase中,Spark将从中读取数据,缓存是否有用?先谢谢您的帮助