2016-11-20 32 views
1

拥有python-pandas知识和可扩展云,在云中实现并行计算的最佳方式是什么? (我只有一台机器,CPU很多,机器也不多)使用python进行云中的并行处理

我现在拥有的云端服务器是亚马逊云服务器,具有windows服务器(最多可扩展到40个CPU和160GB内存),但我可以评估使用不同的云提供商和不同的操作系统

我认为2种可能性:

  • 使用python标准多处理模块(没有任何其他SW)
  • 独立火花用蟒接口

火花应该比蟒多处理更有效率?还有其他方法可以评估? “

回答

1

”要使用启动脚本启动Spark独立群集,您应该在Spark目录中创建一个名为conf/slaves的文件,该文件必须包含您打算启动Spark worker的所有机器的主机名,每行一个“。

在这里看到: http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts

好运

+0

确定THX但我想用只有一台机器40个或更多的CPU,在云中。用这种方式真的需要spark,或者我只能使用python内置的多处理模块? – DPColombotto

+1

在这种情况下,我认为你不应该使用Spark或任何分布式工具。 我的确会建议你在Python中使用多处理。这样,你将获得大量的CPU。 –

+0

查看https://docs.python.org/2/library/multiprocessing.html –