1
我有一个加载两个Avro文件(都具有相同架构)的Spark作业(在CDH 5.5.1中),然后将它们组合起来制作一个DataFrame(也具有相同的架构),然后把它们写回Avro。Spark在写入Avro时会更改架构
作业显式比较两个输入模式以确保它们相同。
这是用来结合现有的数据和几个更新(因为文件是不可变的)。然后我用HDFS中的新文件替换原来的文件。
但是,如果我重复更新过程(即尝试向以前更新的文件添加一些更新的更新),则作业将失败,因为现在的模式不同!到底是怎么回事?