使用python进行云中的并行处理

拥有python-pandas知识和可扩展云，在云中实现并行计算的最佳方式是什么？（我只有一台机器，CPU很多，机器也不多）使用python进行云中的并行处理

我现在拥有的云端服务器是亚马逊云服务器，具有windows服务器（最多可扩展到40个CPU和160GB内存），但我可以评估使用不同的云提供商和不同的操作系统

我认为2种可能性：

火花应该比蟒多处理更有效率？还有其他方法可以评估？ “

”要使用启动脚本启动Spark独立群集，您应该在Spark目录中创建一个名为conf/slaves的文件，该文件必须包含您打算启动Spark worker的所有机器的主机名，每行一个“。

好运

2016-11-20 14:44:53

确定THX但我想用只有一台机器40个或更多的CPU，在云中。用这种方式真的需要spark，或者我只能使用python内置的多处理模块？ – DPColombotto

在这种情况下，我认为你不应该使用Spark或任何分布式工具。我的确会建议你在Python中使用多处理。这样，你将获得大量的CPU。 –

查看https://docs.python.org/2/library/multiprocessing.html –

回答