2015-03-31 58 views
0

我使用Apache Spark分析来自Cassandra的数据,并通过在Cassandra中根据我们的查询设计新表格,将数据重新插入到Cassandra中。我想知道火花是否可以实时分析?如果是,那么如何?我已经阅读了很多这方面的教程,但什么都没发现。使用Apache Spark进行实时分析

我希望执行分析并在数据瞬间进入我的表中时插入Cassandra。

+0

你是什么意思的实时?像Spark Streaming? – 2015-03-31 09:30:05

+0

你可能想看看[Apache Storm](https://storm.apache.org/)。 – 2015-03-31 13:00:45

+0

目前还不清楚你在问什么 – maasg 2015-03-31 13:05:56

回答

1

这对Spark Streaming来说是可能的,您应该看看Spark Cassandra Connector打包的演示和文档。

https://github.com/datastax/spark-cassandra-connector

这包括在飞行中创建新表流媒体支持,以及支持。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md

星火流扩展核心API,允许高吞吐量,直播数据流 容错流处理。数据可以从许多来源获得,如Akka,Kafka,Flume,Twitter, ZeroMQ,TCP套接字等。结果可以存储在Cassandra中。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md#saving-rdds-as-new-tables

使用saveAsCassandraTable方法自动创建一个新表 与给定的名称和保存RDD进去。您要保存的密钥空间 必须存在。下面的代码将创建 密钥空间测试新表words_new的列字和计数,其中字变成了 主键:

案例类字计数(字:字符串,数:龙)VAL集合= sc.parallelize (Seq(WordCount(“dog”,50),WordCount(“cow”,60))) collection.saveAsCassandraTable(“test”,“words_new”, SomeColumns(“word”,“count”))

+0

嗨,谢谢你的发帖。现在我正在处理使用连接器和流式传输的相同流程。但它导致服务器运行速度非常慢。我如何减少这个?这就是为什么我去寻找其他技术在火花实时分析。 – Justin 2015-04-01 04:02:15