使用mrjob在亚马逊的弹性MapReduce上运行python代码我已经成功地找到了一种方法来升级EMR图像的numpy和scipy。Numpy and Scipy with Amazon Elastic MapReduce
从控制台中运行以下命令的工作:
tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz
gzip py_bundle.tar
python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.1.tar.gz --bootstrap-python-package scipy-0.9.0.tar.gz > output.txt
这成功地引导了最新numpy的和SciPy的成图像和完美的作品。我的问题是速度问题。这需要21分钟将自己安装在一个小实例上。
有没有人有任何想法如何加快升级 numpy和scipy的过程?
你的问题是它是一个很慢的小实例。除非您转移到较大的Amazon实例,否则我认为您不会看到任何实际的加速。这是21分钟超过大约5-6分钟的时间吗?它通常需要EC2来启动实例? – ely
我同意与原始旋转的交流本身需要很长时间。 mrjob社区中的某个人建议为工作者实例进行此安装,然后使用ssh登录到工作者实例,下载完成的安装目录。然后,我只是通过我的文件以压缩形式传递完成的安装目录。 Python选择使用本地的NumPy和SciPy来代替hadoop的安装版本。 – jtman