2016-11-25 91 views
5

喜写的Avro到多个输出目录,有一个关于使用MultipleTextOutputFormat如何使用火花

Write to multiple outputs by key Spark - one Spark job

我会问,如果有一些类似的编写文本数据分成多个输出目录中的一个火花的工作主题方式来写Avro的数据到多个目录

我想是写在Avro的文件不同的目录中的数据(基于时间戳字段,当天在时间戳进入到同一个目录)

回答

2

AvroMultipleOutputs类简化了将Avro输出数据写入多个输出。

  • 情况一:写入除作业默认输出之外的其他输出。每个额外的输出或命名输出可以使用其自己的Schema和OutputFormat进行配置。

  • 案例二:将数据写入由用户提供的不同文件

AvroMultipleOutputs支持专柜,默认情况下禁用它们。计数器组是AvroMultipleOutputs类名。计数器的名称与输出名称相同。这些计数写入每个输出名称的记录数。

另外看看

+0

看起来AvroMultipleOutputs用于MR,但可以” t直接用于火花... – Tom

+0

'MultipleOutputsFormatTest'你见过吗? –

+0

谢谢@RamPrasad G.让我试试,谢谢! – Tom