1
我有一个火花数据帧,我可以使用pyspark可用使用toPandas时火花数据帧被转换成数据帧大熊猫会发生什么()方法
toPandas()
方法转换成数据帧大熊猫。
我对此有以下疑问?
- 此转换是否打破了使用spark 本身(分布式计算)的目的?
- 该数据集将是巨大的,那么速度和内存 问题呢?
- 如果有人也可以解释一下,这一行代码究竟发生了什么,这真的有帮助。
感谢
我有一个火花数据帧,我可以使用pyspark可用使用toPandas时火花数据帧被转换成数据帧大熊猫会发生什么()方法
toPandas()
方法转换成数据帧大熊猫。
我对此有以下疑问?
感谢
是的,一旦toPandas
上称为火花非数据帧将走出分布式系统和新的熊猫数据帧的将是集群的驱动节点。
如果火花数据帧很大,并且如果不适合驱动程序内存,它会崩溃。