我有一个按列表分区的表,每个分区都有多个值。例如: partition by list (COL1)
(
partition GROUP_1 values ('VAL1','VAL2','VAL3')
)
这个表有大量的数据,有时,多个会话试图访问相同的块,我面临着其他问题会阅读。因此,我正在考虑将结构更改为以下内容: Alter Table Table_1
Split Part
如何处理空分区mapPartitionsWithIndex? 完整的例子可以发现:https://gist.github.com/geoHeil/6a23d18ccec085d486165089f9f430f2 我的目标是通过RDD的一个已知的完好价值的Spark/Scala: fill nan with last good observation的改进,以填补NaN值。 但一些分区不包含任何值: