我想绘制200 Gb的NYC taxi Dataset。 我设法使用datashader绘制/可视化熊猫数据框。 但我没有设法使用PySpark数据框(每个使用8节点RAM的4节点集群)来完成它。我可以做的是,使用。 toPandas()将PySpark数据框转换为Pandas数据框的方法。但是,这会将整个数据帧加载到驱动程序节点上的RAM中(RAM的容量不足以适应整个数据集),因此不会利用Spark的分布式功能。与PySpark DataFrame一起使用datashader
我也知道,只提取拾取和丢失的长度和纬度将会使数据帧大约30GB左右。但是这并没有改变这个问题。
我已经在GitHub上datashader这里Datashader issue opened
我已经看过DASK作为替代,但似乎转换PySpark数据框所造成的问题 - > DASK数据帧不被支持。
谢谢您的建议!
是的,我转移到Dask这是非常可怕的结合Parquet!希望总有一天能够支持Pyspark数据框,以便Spark用户可以直接使用数据传输器! – filipyoo