-2
我正在为以下问题语句寻找解决方案(在HADOOP 2.2+版本中)。在Hadoop 2.0中处理3百万个+小文本文件
问题陈述:
我们需要处理每天300万个+文件。我们 有兴趣捕捉文件名称以及文件中的数据。 如何以最有效的方式处理这些数据?
我知道关于“CombineFileInputFormat”,“MultiFileInputSplit”和“HAR文件布局”,但我不知道哪一个会在性能方面会更好。
如果您还有其他更好的选项,请您分享。
感谢您的回复, –
感谢您的回应。我们计划每天将所有文件(大小小于1MB)存储在文件夹中。现在,我们必须在这些文件上处理Map Reduce作业,以读取每行以产生输出。由于房屋维护的努力,此代码将永久完成。因此,我想知道如何解决小文件问题,以及哪个进程效率最高。如果您之前已经处理过这样的情况/有解决方案,请分享。 –