2013-01-18 38 views

回答

2

检查TrackerDistributedCacheManager.java代码的更多细节。 Hadoop会保留一个引用计数,说明分布式缓存中有多少个任务正在使用这些文件。如果计数降至0,则标记为删除的文件。因此,在作业结束时,将清理DistributedCache中的文件,否则它们将继续在作业上的节点上堆积。

因此,您不能更改分布式缓存中的文件并将其用于连续作业。

+0

+1为链接 –

+1

所以,我有一个循环内的map-reduce作业。也就是说,根据减速器的输出值,它决定再次重复整个过程。但是,映射器从distributedCache中读取一个值。 distributedCache中的值在每次迭代中发生变化。有没有办法做到这一点? –

相关问题