1
拥有python-pandas知识和可扩展云,在云中实现并行计算的最佳方式是什么? (我只有一台机器,CPU很多,机器也不多)使用python进行云中的并行处理
我现在拥有的云端服务器是亚马逊云服务器,具有windows服务器(最多可扩展到40个CPU和160GB内存),但我可以评估使用不同的云提供商和不同的操作系统
我认为2种可能性:
- 使用python标准多处理模块(没有任何其他SW)
- 独立火花用蟒接口
火花应该比蟒多处理更有效率?还有其他方法可以评估? “
确定THX但我想用只有一台机器40个或更多的CPU,在云中。用这种方式真的需要spark,或者我只能使用python内置的多处理模块? – DPColombotto
在这种情况下,我认为你不应该使用Spark或任何分布式工具。 我的确会建议你在Python中使用多处理。这样,你将获得大量的CPU。 –
查看https://docs.python.org/2/library/multiprocessing.html –