0
我有一个自定义的spark数据源,数据由java库提供。有些字段是ArrayType,偶尔是NULL。我已经尝试将数组字段设置为None,null,lit(null),Option(null)以及可能的其他几种变体,并且在每种情况下催化剂在尝试解析阵列字段时都抛出NPE。spark 2自定义数据源 - 如何将数组列设置为null?
就我所知,Catalyst没有在ArrayConverter的toCatalystImpl()方法(从CatalystTypeConverters.scala)中检查null。这是一个Catalyst错误,还是有一些其他的数据框ArrayType字段的空编码?
与此问题相关吗? https://stackoverflow.com/questions/39734453/spark-dataframe-column-nullable-property-change – stealththeninja