我有一个大矩阵的大目录,我正在对这样的矩阵应用一些昂贵的操作。流水线看起来像这样:如何通过pyspark/hadoop/etc来提高程序的速度?
Directory -> extract matrices -> apply operations -> save in a .csv file
请注意,我包裹到一个函数前面的“管道”。到目前为止,在python的多处理库中,我能够在1周内应用上一个管道。但是,我很好奇是否可以在火花贴图中“并行化” - 减少前一个函数的方式。因此,我的任务是否可以通过pysparks map reduce来增强?我怎样才能提高速度? (我只有两台笔记本电脑),你们是否推荐我在不修改功能的情况下增加管道速度?
在跳转到Spark之前尝试使用Dask –