2017-05-05 39 views
0

我正在解析数据以便通过MapReduce作业获得某种意义。解析的数据以批次的形式出现。它通过火花流工作进一步加载到配置外部表。这是一个实时过程。现在我面临一个不寻常的事件,因为在输出位置创建了_temporary目录,由于目录无法加载到配置单元表中,因此加载到配置单元表失败。它只发生过一次,其余的工作都运行良好。请参阅截图。当mapreduce作业完成时,临时目录没有从输出位置删除

Screenshot of output location

_temporary目录中还包含任务ID作为子目录它们是空的。任何人都可以请帮助解决这个问题,以便将来可以避免它。

回答

0

当有一些任务尚未完成时会创建临时目录,可能很少有数据尚未将其实际位置从临时位置移开。该任务可能会在Web UI中显示完成,但数据移动尚未完成。一旦这个过程完成,将只有_SUCCESS文件。您可以通过监控_temporary目录的大小来检查这一点。这将逐渐减少。

+0

此目录中没有任何内容,批次已成功完成。理想情况下,它应该删除_temporary目录,但即使在作业完成后,该目录也会在那里找到。 –

+0

嘿,哥们,我在这里面临同样的问题,你有没有找到解决方法来解决这个幻影_临时问题? @MohitRaja – KAs