2017-10-11 109 views
0

我知道Spark Spark使用微量批处理数据,但在某些情况下,处理时间不到一秒钟。我的问题是“不能把它称为纯实时处理,而不是在那个实验室里进行实时处理?”为什么火花流被称为接近实时?

回答

1

我想说,我们只能在收集数据并将其直接推送到仪表板或系统时进行实时指标,警报和优化,而无需任何ETL过程,实时目的是,主要是速度。

每当有批次的流程提取历史趋势或基准时,尽管时间不到一秒,但不是实时的,而是接近它,这是因为他们谈论的是接近实时的。

所以,要回答你的问题,我会说不,因为你正在进行配料和加工,所以接近实时。

我希望它有帮助。

+0

谢谢@Juan,它清除了疑问 – dalonlobo

+1

我刚刚问过我们的大数据专家(他在我的右侧工作),他说大数据Spark Streaming被认为是近实时的,因为他的精度接近于毫秒以及Storm等框架或新的Spark(结构化流媒体),您可以以毫微秒的精度工作,这是大数据中的纯粹主义者所称的实时。 – Juan

1

火花流将所述数据流分成的X秒批次称为Dstreams,其内部是RDDS,一个用于每批间隔的序列。每个RDD都包含在批处理间隔期间收到的记录,因为其小批量处理过程几乎不实时。

+0

谢谢@vaquarkhan – dalonlobo