0

我正在将BigQuery中的数据读入到dataproc spark集群中。如果我的BigQuery表中的数据最初是从GCS加载的,那么最好是从GCS直接读取数据到Spark集群,因为dataproc的BigQuery连接器(newAPIHadoopRDD)首先将数据下载到Google Cloud Storage存储桶中?这两种方法之间有什么优点和缺点?将BigQuery和/或云存储GCS中的数据读入Dataproc

回答

0

对于希望尽可能抽象GCS导出/导入并且不想显式管理GCS内部数据集的情况,最好使用BigQuery连接器。

如果您已经拥有GCS中的数据集,最好直接使用GCS数据集以避免额外的导出步骤,并且能够直接使用更简单的文件系统接口。缺点是维护数据集的两个副本(一个在GCS中,一个在BQ中)并保持同步。但是,如果大小不是太高并且数据更新频率不太高,您可能会发现最容易保留GCS数据集以便直接访问。

相关问题