1

我在Google存储分区中有几百个文件(100,000个)。文件大小约为2-10MB。我需要在每个这些文件上应用一个简单的python函数(只是数据转换)。我需要从一个桶读取 - 并行转换(python函数) - 并存储在另一个桶中。我正在考虑使用简单的Hadoop或Spark群集来完成此操作。我以前在单个实例上使用并发线程来做到这一点,但我需要一个更强大的方法。什么是完成这个最好的方法?在Google云中处理多个对象

回答

2

您可以使用最近宣布的Google Cloud Dataproc(截止2015年10月5日的beta),它为您提供托管Hadoop或Spark群集。它与Google云端存储集成,因此您可以读取和写入存储桶中的数据。

您可以通过gcloudsubmit jobs,控制台或通过SSH连接到集群中的某台计算机。