0
我试图使用s3cmd CLI将32GB文件上传到S3存储桶。它正在执行分段上传并且经常失败。我从一台带宽为1000Mbps的服务器上做这件事。但上传仍然非常缓慢。我能做些什么来加快速度?亚马逊S3分段上传经常失败
另一方面,该文件位于我提到的服务器上的HDFS上。有没有办法引用Amazon Elastic Map Reduce作业从这个HDFS中选取它?这仍然是一个上传,但工作也正在执行。所以整个过程要快得多。
我试图使用s3cmd CLI将32GB文件上传到S3存储桶。它正在执行分段上传并且经常失败。我从一台带宽为1000Mbps的服务器上做这件事。但上传仍然非常缓慢。我能做些什么来加快速度?亚马逊S3分段上传经常失败
另一方面,该文件位于我提到的服务器上的HDFS上。有没有办法引用Amazon Elastic Map Reduce作业从这个HDFS中选取它?这仍然是一个上传,但工作也正在执行。所以整个过程要快得多。
首先,我承认我从来没有使用s3cmd的Multipart功能,所以我不能说那个。不过,我过去用boto上传了大量(10-15GB文件)到S3,取得了很大的成功。事实上,对于我来说,这成为了一项常见任务,因此我编写了一个little utility以使其更容易。
至于你的HDFS问题,你总是可以用一个完全合格的URI来引用一个HDFS路径,例如hdfs:// {namenode}:{port}/path/to/files。这假定您的EMR群集可以访问此外部HDFS群集(可能需要使用安全组设置)
请参阅以下问题是否有帮助:http://stackoverflow.com/questions/5774808/s3cmd-failed-too-many -times – Amar