Pyspark无法在火花外壳中写入火星df到熊猫df

我已经创建了pyspark纱线过程，具有6个内核和60 GB的内存以加载来自csv的数据。现在，当我加载时，我需要将其转换为熊猫数据框。我试过df.toPandas()，这个过程已经开始了，但是在每隔几分钟之后，重新开始阶段（比如从零开始刷新）。这就是我在输入这个问题的时刻所拥有的。Pyspark无法在火花外壳中写入火星df到熊猫df

[Stage : 10 > ----------------      (0 + 836)/11830]

但它会刷新数，其中836现在是0，给我一些一堆错误，如进程停止，由于舞台错误几分钟。你也许知道是什么原因导致错误？

来源

2017-09-26 jovicbg

如文档here中所述，df.ToPandas()旨在与小数据集一起使用。如果得到的熊猫的数据帧预期为小，因为所有的数据被加载到驱动程序的内存

注只应使用此方法。

来源

2017-09-26 12:24:47 MedAli

Pyspark无法在火花外壳中写入火星df到熊猫df

回答

相关问题