我是新来的hadoop 和蜂巢,我迷惑约蜂巢的insert into
和load data
声明。蜂巢差异
当我执行INSERT INTO TABLE_NAME (field1, field2) VALUES(value1, value2);
时,hiveserver会执行mapReduce任务。
当我执行LOAD DATA LOCAL INPATH PATH_TO_MY_DATA INTO TABLE TABLE_NAME;
时,它只从文件加载数据,而不做别的。
我用python编写程序,这里是我的问题,如果我用pyhs2和用insert
语句保存数据记录,每个记录都会执行mapReduce任务,而且速度很慢。 我应该先将数据保存到某处,然后再使用load data
语句加载它?
感谢您的建议。 – tinyproxy