2014-10-07 27 views
3

DataStax spark cassandra连接器非常适合通过Apache Spark与Cassandra进行交互。借助Spark SQL 1.1,我们可以使用节俭服务器与Tableau进行交互。由于Tableau可以与Spark交谈,并且Spark可以与Cassandra交谈,所以肯定有一些方法可以让Tableau通过Spark(或者Spark SQL)与Cassandra交谈。我无法弄清楚如何让这个运行。理想情况下,我想用Spark Standalone集群+一个cassandra集群(即没有额外的hadoop设置)执行此操作。这可能吗?任何指针赞赏。让Tableau与Spark和Cassandra对话

+0

Tableau刚刚宣布推出Spark SQL驱动程序http://www.tableausoftware.com/about/blog/2014/10/tableau-spark-sql-big-data-just-got-even-more-supercharged-33799 。该文章介绍了如何申请一个测试版本。 – 2014-10-17 02:57:29

+0

关于让spark + tableau查询cassandra的任何想法? – ashic 2015-02-17 23:12:38

+0

由于Spark SQL可以访问Cassandra,因此应该可以使用Tableau Spark SQL驱动程序。您使用的是测试版驱动程序吗?如果有,你有什么具体问题? (或者更好的是,告诉测试程序,以便他们可以修复它) – 2015-02-18 04:37:00

回答

3

HiveThriftServer有一个HiveThriftServer2.startWithContext(sqlContext)选项,因此您可以创建引用C *的sqlContext和适当的表/ CF,然后将该上下文传递给节俭服务器。

因此,像这样:

import org.apache.spark.sql.hive.HiveContext 
import org.apache.spark.sql.catalyst.types._ 
import java.sql.Date 
val sparkContext = sc 
import sparkContext._ 
val sqlContext = new HiveContext(sparkContext) 
import sqlContext._ 
makeRDD((1,"hello") :: (2,"world") ::Nil).toSchemaRDD.cache().registerTempTable("t") 
import org.apache.spark.sql.hive.thriftserver._ 
HiveThriftServer2.startWithContext(sqlContext) 

因此而不是从星火开始默认thriftserver你可以只午饭你cusotm之一。