2016-07-25 90 views
0

我的pyspark过程的输出部分大小不均匀,但可预测具有n ** 2模式(0,1,2,4,8,16等)。这是我的过程:pyspark不均匀地分配负载,增加双倍尺寸的零件

我从谷歌的BigQuery加载数据是这样的:

dConf = { 
    "mapred.bq.project.id": project_id, 
    "mapred.bq.gcs.bucket": bucket, 
    "mapred.bq.input.project.id": project_id, 
    "mapred.bq.input.dataset.id":dataset_id, 
    "mapred.bq.input.table.id": table_id 
} 

rdd_dataset_raw = sc.newAPIHadoopRDD(
    "com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat", 
    "org.apache.hadoop.io.LongWritable", 
    "com.google.gson.JsonObject", 
    conf=dConf 
) 

,其输出看起来像这样(rdd_dataset_raw.take(2)):

[(0, u'{"group_id":"1","pertubations":"Current Affairs,Sport,Technology"}'), 
(67, u'{"group_id":"2","pertubations":"Current Affairs,Sport,Celeb Gossip"}')] 

一些琐碎的处理,以重新划分:

rdd_dataset = (
    rdd_dataset_raw 
    .repartition(nr_partitions) 
    .map(lambda t, json=json: json.loads(t[1])) 
) 

看起来像这样:

[{u'group_id': u'1', u'pertubations': u'Current Affairs,Sport,Technology'}, 
{u'group_id': u'2', u'pertubations': u'Current Affairs,Sport,Celeb Gossip'}] 

当我保存RDD到谷歌存储有:

rdd_dataset_raw.saveAsTextFile("gs://bucket/directory") 

这将创建nr_partitions部分文件。

但是,这些零件文件大小不均。它们在n**2中增加,其中n是零件文件号。换句话说,

part-00000包含0线
part-00001含有1线
part-00002包含2行
part-00003包含4行
part-00004包含8行

大多数这些也几乎完成立即,后面的部分用完了内存。

这是怎么回事!?如何使分区承担均匀负载?

回答

0

这是与partitionBy更换repartition简单:

rdd_dataset = (
    rdd_dataset_raw 
    .partitionBy(nr_partitions) 
    .map(lambda t, json=json: json.loads(t[1])) 
) 

注意这需要尽可能早地完成。传递一个未分区的rdd,然后再分区。

Docs