我在多个文件夹中的网格拆分上有map-reduce输出。每个文件的格式都是一样的。每个文件夹都有一堆文件: 示例:/ folderpath/folder1/part-r-00001到/ folderpath/folder1/part-r-00100 .../folderpath/foldern/part-r-00001到/ folderpath/foldern/part -r-00100将来自不同文件夹的map-reduce输出组合到单个文件夹中
将内容合并到一起的最简单方法是什么,即将文件聚合到单个文件夹(我想稍后使用) /folderpath/merged/part-r-0000 *。 ../folderpath/merged/part-r-000n
我能想到猪脚本,它读取每个路径的输出并读取关系的联合,然后转储它们。
任何其他选项/命令?
是的,即使我早些时候认为猪脚本(如问题中提到的)。我会和它一起去的。谢谢! – Jay
我在问题中看到了它,但请注意它可能比您描述的更简单 - 无需分别读取输入并执行“UNION”。只需一次'LOAD',然后'STORE'。 –
哦,是的。这简单得多!不需要UNION。再次感谢。 – Jay