0
A
回答
0
通常,您需要创建一个代表您的模式的StructType
。 A StructType
包含一个Array[StructField]
,其中数组的每个元素对应于您的模式中的一列。 A StructField
可以是任何支持DataType
- 包括嵌套模式的另一个StructType
。
创建模式可以是简单的:
val schema = StructType(Array(
StructField("col1", StringType),
StructField("col2", LongType)
))
如果要生成一个复杂的数据集架构 - StructTypes
一个包含嵌套 - 那么你很可能需要创建一个递归函数。在spark-avro
集成库中可以找到这样一个函数的样子。函数toSqlType需要Avro
模式并将其转换为Spark StructType
。
+0
谢谢@ david-griffin,但我后**自动模式发现/推理**。我应该如何采样数据并合并模式? –
相关问题
- 1. 自定义模式在火花1.4.1
- 2. 火花流 - 定制接收器和数据帧推断模式
- 3. 从自定义数据格式创建火花数据框
- 4. 如何写火花自定义数据源基于FileFormat
- 5. 火花ML编写自定义模式,变压器
- 6. 应用自定义函数的火花数据帧组
- 7. 在apache的火花蟒蛇K-均值自定义的距离公式推
- 8. 推断架构VS明确地传递模式,而在火花数据帧
- 9. SCE - 自定义数据源
- 10. 编写你自己的火花数据源。
- 11. 自动应用数组[列]火花
- 12. 数据源自动绑定
- 13. 火花流:执行自定义VS接收机的数目
- 14. 将动画SWF加载到自定义Flex(火花)按钮中
- 15. KendoUI自定义数据源读取功能自动完成
- 16. 主动资源的自定义参数
- 17. SSAS中的自定义ROLAP数据源
- 18. 灰烬数据的自定义数组推动和删除
- 19. 处理来自jquery-ui自动完成中的自定义源的数据
- 20. 自定义花式框插件
- 21. 火花数据帧保存到SQL表自动递增列
- 22. 自动断言的来源?
- 23. dojo使用自定义cdn源码中的自定义模块
- 24. 自定义编辑模板不能推断字段名
- 25. 与ML火花和数据帧的隐式推荐
- 26. Flex:在自定义itemrenderer中为火花数据网格获取列索引
- 27. 使用CodeIgniter自动加载火花
- 28. 从JSON模式表示创建火花数据帧模式
- 29. 自定义源
- 30. DB2用户自定义函数和自定义模式
http://stackoverflow.com/a/35372282/1560062 – zero323