我有一个大的日志文件,我加载到HDFS
。根据机架感知,HDFS
将复制到不同的节点。Hive是否重复数据?
现在我将同一个文件加载到配置单元表中。这些命令如下:
create table log_analysis (logtext string) STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/';
LOAD DATA INPATH '/user/log/apache.log' OVERWRITE INTO TABLE log_analysis;
现在,当我去看看“/用户/蜂巢/仓储/”目录下有一个表文件,并将其复制到本地,它拥有所有的日志文件数据。
我的问题是:在HDFS
现有文件被复制。然后将该文件加载到存储在HDFS
的配置单元表中也会被复制。
是不是相同的文件存储6次(假设复制因子是3)?那会浪费资源。
这是正确的。因此,您必须明智地选择您希望保留在HDFS中的数据。 – raunakjhawar
如果要选择性地更改日志文件(或Hive表)的复制因子,请查看http://stackoverflow.com/questions/33292277/how-to-change-hdfs-replication-factor-for-蜂房独 –