2017-09-26 93 views
0

我已经创建了pyspark纱线过程,具有6个内核和60 GB的内存以加载来自csv的数据。现在,当我加载时,我需要将其转换为熊猫数据框。 我试过df.toPandas(),这个过程已经开始了,但是在每隔几分钟之后,重新开始阶段(比如从零开始刷新)。这就是我在输入这个问题的时刻所拥有的。Pyspark无法在火花外壳中写入火星df到熊猫df

[Stage : 10 > ----------------      (0 + 836)/11830] 

但它会刷新数,其中836现在是0,给我一些一堆错误,如进程停止,由于舞台错误几分钟。 你也许知道是什么原因导致错误?

回答

0

如文档here中所述,df.ToPandas()旨在与小数据集一起使用。如果得到的熊猫的 数据帧预期为小,因为所有的数据被加载到 驱动程序的内存

注只应使用此方法。