我有4个数据节点和HDFS结构的每个节点上的集群是如下什么是hadoop hdfs中的/ tmp目录?
我面临的磁盘空间的问题,因为你可以看到从HDFS已经占据更多的空间/tmp目录文件夹( 217GB)。所以我试图调查从/tmp文件夹中的数据。我发现了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含10GB到20GB的部分文件。 我想清除这个/ tmp目录。任何人都可以让我知道删除这些tmp文件夹或零件文件的后果。它会影响我的集群吗?
我有4个数据节点和HDFS结构的每个节点上的集群是如下什么是hadoop hdfs中的/ tmp目录?
我面临的磁盘空间的问题,因为你可以看到从HDFS已经占据更多的空间/tmp目录文件夹( 217GB)。所以我试图调查从/tmp文件夹中的数据。我发现了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含10GB到20GB的部分文件。 我想清除这个/ tmp目录。任何人都可以让我知道删除这些tmp文件夹或零件文件的后果。它会影响我的集群吗?
HDFS/tmp目录主要用作精简操作过程中的临时存储。 Mapreduce工件,中间数据等将保存在该目录下。 mapreduce作业执行完成后,这些文件将自动清除。如果删除此临时文件,则可能会影响当前正在运行的mapreduce作业。
临时文件由猪创建。临时文件删除发生在最后。如果脚本执行失败或死亡,Pig不处理临时文件删除。那么你必须处理这种情况。你最好在脚本本身处理这个临时文件清理活动。
下面的文章为您提供了一个很好的理解
http://www.lopakalogic.com/articles/hadoop-articles/pig-keeps-temp-files/
嗨,这些/ tmp目录下的文件都没有得到自动删除。你能分享我们可以设置的文件名吗?选择自动删除文件。如果这些文件是mapreduce操作,那么为什么/ tmp的大小是217 Gb。 –
你可以发布以下命令的输出吗? hadoop fs -lsr/tmp/temp-2050991966/tmp-184805992 – sachin
'1)2014-07-21 11:09/tmp/temp-2050991966/tmp-184805992/_SUCCESS 2)2014-07-21 11: 07/tmp/temp-2050991966/tmp-184805992/_logs 3)2014-07-21 11:09/tmp/temp-2050991966/tmp-184805992/_logs/history 4)2014-07-21 11: 09 /tmp/temp-2050991966/tmp-184805992/_logs/history/job_201405161515_15124_1405921062606_ocuser_PigLatin%3AOC_Generate_Connect_Strength.pig 5)278029 2014年7月21日11时07分/ TMP/TEMP-2050991966/TMP-184805992/_logs /历史/ job_201405161515_15124_conf .xml 6)2014-07-21 11:08/tmp/temp-2050991966/tmp-184805992/part-m-00000 7)2014-07 -21 11:08/tmp/temp-2050991966/tmp-184805992/part-m-00001' –