有没有办法在PySpark

2015-12-14 194 views 2 likes

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv")

使用以下命令读取文本文件时控制分区的数量是否有指定的分区数的方式， RDD rating_data_raw应该被分成？我想指定大量的分区来提高并发性。

2015-12-14 London guy

您可以添加python标签吗？通过这种方式将亮点添加到您的代码 –

您可以在阅读文件时说明最少的分区数量，请参阅此处的文档 - http://spark.apache.org/docs/latest/api/python/pyspark.html –

回答

正如其他用户所说，您可以在读取文件时设置将创建的最小分区数，方法是将其设置在textFile的可选参数minPartitions中。

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv", minPartitions=128)

另一种方式实现这一目标是通过使用repartition或coalesce，如果你需要减少你可以使用3210分区的号码，否则，你可以使用repartition。

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv").repartition(128)

2015-12-14 11:23:06