我在HDFS的data/2011/01/13/0100 /文件中有我的数据,每个文件都包含tab分隔的数据,比如name,ip,url。将数据从HDFS导入到Hive表
我想在Hive中创建一个表并从hdfs导入数据,表中应该包含时间,名称,IP和URL。
如何使用Hive导入这些文件?数据应该采用其他格式,以便我可以导入时间?
我在HDFS的data/2011/01/13/0100 /文件中有我的数据,每个文件都包含tab分隔的数据,比如name,ip,url。将数据从HDFS导入到Hive表
我想在Hive中创建一个表并从hdfs导入数据,表中应该包含时间,名称,IP和URL。
如何使用Hive导入这些文件?数据应该采用其他格式,以便我可以导入时间?
要做到这一点,你必须使用分区,了解更多关于他们在这里:
您需要创建该表将文件加载到,然后使用LOAD DATA命令将文件加载到Hive表中。请参阅Hive documentation以了解使用的精确语法。
问候, 杰夫
您可以创建这样的数据的外部表。
喜欢的东西:
创建外部表log_data(名称字符串,IP串,URL字符串) PARTITIONED BY(年BIGINT,月BIGINT,日BIGINT,小时BIGINT) 行格式分隔的字段被终止'\ t'存储为TEXTFILE 位置'data'
检查此问题:http://stackoverflow.com/questions/9626789/how-can-i-partition-a-table-with-hive – 2012-04-17 21:43:43