spark 2自定义数据源 - 如何将数组列设置为null？

我有一个自定义的spark数据源，数据由java库提供。有些字段是ArrayType，偶尔是NULL。我已经尝试将数组字段设置为None，null，lit（null），Option（null）以及可能的其他几种变体，并且在每种情况下催化剂在尝试解析阵列字段时都抛出NPE。spark 2自定义数据源 - 如何将数组列设置为null？

就我所知，Catalyst没有在ArrayConverter的toCatalystImpl（）方法（从CatalystTypeConverters.scala）中检查null。这是一个Catalyst错误，还是有一些其他的数据框ArrayType字段的空编码？

来源

2017-09-16 user2879837

与此问题相关吗？ https://stackoverflow.com/questions/39734453/spark-dataframe-column-nullable-property-change – stealththeninja

我的不好，我发现这个问题（黑了一块错误的代码）。最终答案似乎是“Option（null）”。我尝试了None并点亮了（null：），但都抛出异常。

来源

2017-09-16 17:19:41 user2879837

spark 2自定义数据源 - 如何将数组列设置为null？

回答

相关问题