回答
可以使用SQLContext
对象调用createDataFrame
方法,该方法的输入data
其可以任选地是熊猫DataFrame
对象。
我知道这个选项。但试图查看是否有一种直接的方式将DF转换为RDD而不创建schemaRDD。 –
'schemaRDD'已被Spark 1.3中的DataFrames所取代。如果你不想让你的RDD元素成为'Row'实例,调用'df.rdd.map(lambda x:[e for e in x])'。虽然我真的不明白你为什么要这么做。你想要保存什么格式? – karlson
计划是从NFS中读取csv文件,并在使用panda df进行处理后,将其交换为spark rdd并将其写为hdfs中的avro/parquet文件。此外,是否支持DF支持熊猫DF目前支持的所有功能? –
比方说dataframe
的类型是pandas.core.frame.DataFrame的再火花2.1 - Pyspark我这样做
rdd_data = spark.createDataFrame(dataframe)\
.rdd
在情况下,如果要重命名的列或只选择几列,你在使用之前做他们.rdd
希望它也适用于你。
我使用Spark 1.6.0。首先将熊猫数据帧转换为火花数据帧,然后火花数据帧火花rdd
sparkDF = sqlContext.createDataFrame(pandasDF)
sparkRDD = sparkDF.rdd.map(list)
type(sparkRDD)
pyspark.rdd.PipelinedRDD
- 1. 将火花rdd转换为熊猫数据帧
- 2. 将熊猫数据框转换为zeppelin中的火花数据框
- 3. 熊猫数据框到RDD
- 4. 我怎么火花数据帧转换为RDD并获得话
- 5. 火花数据帧转换为rdd需要很长时间
- 6. 我如何将字典转换为熊猫数据框
- 7. 熊猫 - 如何将r数据框转换回熊猫?
- 8. 将数据转换为熊猫缺失
- 9. 将熊猫数据帧转换为csv
- 10. 将熊猫数据框转换为橙色数据表
- 11. 将IbPy数据请求转换为熊猫数据框
- 12. 熊猫可以将DataFrame转换为Series吗?
- 13. 如何将矩阵转换为火花中的RDD [矢量]
- 14. 如何将火花RDD转换为mahout DRM?
- 15. 将嵌套数组转换为python中的熊猫数据框
- 16. 如何将列名称数组转换为熊猫数据框?
- 17. 将指数转换为相应的熊猫数据框的值
- 18. 将熊猫数据框转换为numpy数组,保留索引
- 19. 如何将一个numpy数组转换为熊猫数据框
- 20. 如何将numpy数组转换为熊猫数据框?
- 21. 熊猫数据框:将整数转换为hh:mm
- 22. Python将大型numpy数组转换为熊猫数据框
- 23. 我的熊猫数据框输出可以绘制成图吗?
- 24. 如何将熊猫数据框转换为Morris数据集以进行引导
- 25. 在斯卡拉转换火花数据帧到RDD
- 26. 如何转换卡夫卡流火花RDD或Spark数据帧
- 27. 如何转换此熊猫数据框?
- 28. Python将逗号分隔列表转换为熊猫数据框
- 29. 将熊猫数据框转换为JSON格式
- 30. 将熊猫群组合并转换为多索引数据框
为什么不直接将本地文件读入Spark数据框? – karlson
正如我所说的,我想在使用spark将它写入HDFS之前使用熊猫DF来操作数据。不知道火花数据帧是否支持熊猫数据框支持的所有功能 –