0
我想将phantk数据框中的列拆分为值。所以我分开,我想拆分列,并检查它的类型:使用映射函数将Spark Dataframe转换为RDD
I: type(TopicModelVectorSplit)
O: pyspark.sql.dataframe.DataFrame
当我分裂使用字符串:
TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split())
将其转换为pipilined RDD,而这些都是不可能的工作。
I: type(TopicModelVectorSplit)
O: pyspark.rdd.PipelinedRDD
如何分割此列并仍然保持数据框属性不变?
万分感谢