我有一个5节点cluster.I使用pyspark将一个100k csv文件加载到数据帧并执行一些etl操作并将输出写入parquet文件。 当我加载数据框时,如何将数据集统一划分到每个执行器处理20k记录的所有执行者OS中。pyspark在所有执行者之间均匀分配负载
0
A
回答
0
如果可能,请确保将输入数据拆分为更小的文件。 这样每个执行者将读取和处理单个文件。
在,你不能修改输入文件的情况下,你可以打电话df.repartition(5)
,但请记住,这将导致昂贵的整理操作
相关问题
- 1. Cassandra负载分配 - 不均匀1.2.8
- 2. Resque - 在多个服务器之间均匀分配作业负载
- 3. pyspark不均匀地分配负载,增加双倍尺寸的零件
- 4. Spark没有将负载均匀分配到任务
- 5. 不均匀的CPU负载分布
- 6. 按天分配行均匀
- 7. 分配均匀行从表
- 8. 在节点之间均匀分配重量级任务
- 9. 均匀分配菜单
- 10. Hadoop,机器之间的负载不均
- 11. 均匀位置和均匀指数之间的区别?
- 12. 为所有进程均匀分配值的算法
- 13. Hadoop:如何将任务均匀分配给所有节点
- 14. 浮动div之间的均匀间距
- 15. Higcharts蜱之间不均匀的空间
- 16. 清漆client.identity - 如何更均匀地分割负载?
- 17. 在水平线上均匀分配div
- 18. pySpark:获取执行者ID
- 19. 在TensorFlow中GPU之间均匀分割RNN内存消耗
- 20. 如何在两列之间均匀分割TableRow?
- 21. 在最小值和最大值之间均匀分配y轴刻度
- 22. PHP - 在元素之间均匀分配幻灯片7天(可缩放)
- 23. 在整个动态空间中均匀分配多个项目
- 24. Bootstrap 4在容器中均匀分配空间按钮
- 25. 均匀分配空间li使用百分比
- 26. 在div内均匀分隔行
- 27. Flex的空间之间 - 均匀地分布在多个线路分布
- 28. TextView中的行与HTML文本之间的不均匀空间
- 29. 问:我如何均匀分配元素?
- 30. UIStackView - 均匀分配视图中心
你可以用'重新分区(5)'。 – philantrovert