2016-06-22 81 views
0

我想将phantk数据框中的列拆分为值。所以我分开,我想拆分列,并检查它的类型:使用映射函数将Spark Dataframe转换为RDD

I: type(TopicModelVectorSplit) 
O: pyspark.sql.dataframe.DataFrame 

当我分裂使用字符串:

TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()) 

将其转换为pipilined RDD,而这些都是不可能的工作。

I: type(TopicModelVectorSplit) 
O: pyspark.rdd.PipelinedRDD 

如何分割此列并仍然保持数据框属性不变?

万分感谢

回答

0

您可以随时将其转换回使用.toDF一个数据帧,但RDD是不可能的工作,你不妨细你想保持它这样。

Split = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()).toDF 
相关问题