2017-09-16 19 views
0

我有一个自定义的spark数据源,数据由java库提供。有些字段是ArrayType,偶尔是NULL。我已经尝试将数组字段设置为None,null,lit(null),Option(null)以及可能的其他几种变体,并且在每种情况下催化剂在尝试解析阵列字段时都抛出NPE。spark 2自定义数据源 - 如何将数组列设置为null?

就我所知,Catalyst没有在ArrayConverter的toCatalystImpl()方法(从CatalystTypeConverters.scala)中检查null。这是一个Catalyst错误,还是有一些其他的数据框ArrayType字段的空编码?

+0

与此问题相关吗? https://stackoverflow.com/questions/39734453/spark-dataframe-column-nullable-property-change – stealththeninja

回答

0

我的不好,我发现这个问题(黑了一块错误的代码)。最终答案似乎是“Option(null)”。我尝试了None并点亮了(null:),但都抛出异常。

相关问题