所以问题的基本前提是我在hadoop中有一些巨大的表格,我需要从每个月获取一些样本。我嘲笑了下方显示排序后,我的事情,但显然它不是真实的数据... --Create the table
CREATE TABLE exp_dqss_team.testranking (
Name STRING,
Age INT,
Favourite_Cheese STRING
) ST
我有一个查询需要很长时间(187.42秒)来查找所有包含属性(c.scr)的相关文档,并从该列表中给出文档使用最新的文件日期进行处理。我想知道是否有人可以提供任何建议来优化查询。 请注意,我确实玩过ROW_NUMBER,RANK和DENSE_RANK,他们甚至更慢,所以这是迄今为止我所得到的最好的。 (Query) total time '187.42 seconds':
SE