2017-06-14 227 views
0

我注意到大多数博客都在讨论如何设置HDFS审计日志。 但有没有一个来源来确定每个操作/ cmd代表什么?HDFS审计日志格式和说明

我发现下面的表中的Hadoop HowToConfigure维基: HDFS Audit Logs format

但我不知道的是,在所有的操作,他们的立场是什么做的。

例如我试图通过读/写操作对操作进行分类,但似乎“打开”是读/写的通用命令,其余部分更像DDL和访问控制操作。

我明白,在像Cloudera或HDP这样的不同Hadoop发行版中,他们有自己的方式来告诉审计日志,但默认操作是什么意思?例如创建 - 可能意味着创建文件/ mkdirs可能意味着mkdir的配置单元表/配置单元分区。

最重要的是有没有一种方法来区分读/写操作?

回答

0

如果您想到最典型的Hadoop作业(Pig,Hive,MR,SQOOP,Spark),则很少覆盖数据,因此创建意味着写入和打开意味着读取。如果您要覆盖数据,则实际上将其删除,然后重新创建它。

要区分哪个服务执行了操作,还需要查看其他来源(Hive审计日志,YARN RM审计日志)或从用户和目录推断服务(/ usr/hive/warehouse/*很可能一个配置单元查询)。

覆盖/添加的引用:

How to force STORE (overwrite) to HDFS in Pig?

How does Sqoop append command will work in hadoop

蜂巢审核日志:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs