2016-09-28 138 views
0

是否可以将RDD [CassandraRow]转换为RDD [String]?如果是这样,对转换后的RDD有什么不利之处?将RDD [CassandraRow]转换为RDD [String]

+1

使用'rdd.map'功能,您可以转换为另一种形式 – Shankar

+0

会有任何性能损失为我的RDD将是巨大的? – BDR

+0

需要更多细节,为什么您要将一种形式的RDD转换为另一种形式,并且还要将RDD分布在多个节点中。它旨在处理巨大的数据。 – Shankar

回答

0

您可以使用sqlContext从Cassandra表中读取数据,它会返回一个DataFrame,并且当您使用sparkContext读取文本文件时,它将返回RDD,然后您可以将其转换为DataFrame。

如果您的文本文件是CSV,Spark 2.0支持csv数据源,它会通过deafult返回一个DataFrame。请参阅本.. https://spark.apache.org/releases/spark-release-2-0-0.html#new-featureshttps://github.com/databricks/spark-csv/issues/

更新:

https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html