0
我必须读取在HDFS中的avro文件中序列化的Avro记录。为此,我使用AvroKeyInputFormat,因此我的映射器能够将读取的记录作为关键字使用。在Hadoop中使用Avro输入格式控制分割大小
我的问题是,我如何控制分割大小?使用文本输入格式,它包括以字节为单位定义大小。在这里,我需要定义每个分组将包含多少条记录。
我想管理我的输入目录中的每个文件就像一个大文件。我有没有使用CombineFileInputFormat?是否有可能与Avro一起使用?
问题si不同:在inout文件夹中,我有很多avro文件,其中每个文件都包含一些avro对象。我必须考虑所有输入对象,并设置每个分割3-4个avro对象的限制。 –
你想让每个任务只处理3-4个avro对象吗?一个文件包含多少个对象?对象的大小是多少? – SNeumann
对不起,3-4是一个例子,说我必须控制每个分割有多少个对象。我更愿意将所有输入视为一个fileonky yo split,并且我无法知道对象的大小,因为它们也可以包含数组。 –