我写我的数据帧像下面空文件输出火花
df.write().format("com.databricks.spark.avro").save("path");
但是我得到大约200个文件,其中30-40文件empty.I可以理解,这可能是由于空分区。然后我更新我的代码,如
df.coalesce(50).write().format("com.databricks.spark.avro").save("path");
但我觉得它可能会影响性能。有没有其他更好的方法来限制输出文件的数量和删除空文件