6
我开始了一个新的Hadoop项目,该项目将有多个hadoop作业(以及多个jar文件)。使用mercurial进行源代码管理,我想知道什么是组织存储库结构的最佳方式?每个工作应该分别存放在不同的仓库中,还是让它们保持相同的效率更高效,但分解成多个文件夹?Hadoop项目的存储库组织
我开始了一个新的Hadoop项目,该项目将有多个hadoop作业(以及多个jar文件)。使用mercurial进行源代码管理,我想知道什么是组织存储库结构的最佳方式?每个工作应该分别存放在不同的仓库中,还是让它们保持相同的效率更高效,但分解成多个文件夹?Hadoop项目的存储库组织
如果你在流水线化Hadoop作业(其中一个的输出是另一个的输入),我发现最好将它的大部分保存在同一个存储库中,因为我倾向于生成很多通用的方法,我可以用于各种MR作业。
就我个人而言,由于通常没有依赖关系,因此我将流式作业与我的传统作业保持在单独的回购中。
您是否打算使用DistributedCache或流式作业?您可能需要为您分发的文件设置单独的目录。你真的需要每个Hadoop工作的JAR吗?我发现我没有。
如果您提供有关您计划使用Hadoop的更多详细信息,我可以看看还有什么可以建议的。
谢谢埃里克。我不打算做任何流式工作(可能会在未来,但尚未到达)。这个项目非常年轻,并且在不断发展,所以我很好奇如何布置一个能够适应未来项目增长的良好基础。 – 2010-06-02 22:51:02