使用Apache Spark进行实时分析

我使用Apache Spark分析来自Cassandra的数据，并通过在Cassandra中根据我们的查询设计新表格，将数据重新插入到Cassandra中。我想知道火花是否可以实时分析？如果是，那么如何？我已经阅读了很多这方面的教程，但什么都没发现。使用Apache Spark进行实时分析

我希望执行分析并在数据瞬间进入我的表中时插入Cassandra。

来源

2015-03-31 Justin

你是什么意思的实时？像Spark Streaming？ – 2015-03-31 09:30:05

你可能想看看[Apache Storm]（https://storm.apache.org/）。 – 2015-03-31 13:00:45

目前还不清楚你在问什么 – maasg 2015-03-31 13:05:56

这对Spark Streaming来说是可能的，您应该看看Spark Cassandra Connector打包的演示和文档。

https://github.com/datastax/spark-cassandra-connector

这包括在飞行中创建新表流媒体支持，以及支持。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md

星火流扩展核心API，允许高吞吐量，直播数据流容错流处理。数据可以从许多来源获得，如Akka，Kafka，Flume，Twitter， ZeroMQ，TCP套接字等。结果可以存储在Cassandra中。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md#saving-rdds-as-new-tables

使用saveAsCassandraTable方法自动创建一个新表与给定的名称和保存RDD进去。您要保存的密钥空间必须存在。下面的代码将创建密钥空间测试新表words_new的列字和计数，其中字变成了主键：

案例类字计数（字：字符串，数：龙）VAL集合= sc.parallelize （Seq（WordCount（“dog”，50），WordCount（“cow”，60））） collection.saveAsCassandraTable（“test”，“words_new”， SomeColumns（“word”，“count”））

来源

2015-03-31 17:17:20 RussS

嗨，谢谢你的发帖。现在我正在处理使用连接器和流式传输的相同流程。但它导致服务器运行速度非常慢。我如何减少这个？这就是为什么我去寻找其他技术在火花实时分析。 – Justin 2015-04-01 04:02:15

使用Apache Spark进行实时分析

回答

相关问题