0
我正在将BigQuery中的数据读入到dataproc spark集群中。如果我的BigQuery表中的数据最初是从GCS加载的,那么最好是从GCS直接读取数据到Spark集群,因为dataproc的BigQuery连接器(newAPIHadoopRDD)首先将数据下载到Google Cloud Storage存储桶中?这两种方法之间有什么优点和缺点?将BigQuery和/或云存储GCS中的数据读入Dataproc