我该如何检查一个分叉的桌子的分区是否正确装有袋子?只检查分区中文件的数量等于表的桶数似乎不够。如何检查每个存储桶中的所有行是否只属于该存储桶。谢谢。蜂巢:带肩表的健康检查
1
A
回答
0
我希望下面将有助于
DESCRIBE EXTENDED page_view PARTITION (ds='2008-08-08');
我从这里
0
得到了它,我不知道它会工作,但我想,如果表由列cluseretd, b分成n个桶,然后hash(a,b)%n
是桶号(你可以在hdfs的文件名中看到它)。
如果您不确定,可以随时插入oevrwrite选择自己的分区并将hive.force.bucketing
设置为true。
0
如果存储桶是在colA上分区的,那么您可以验证每个存储桶的计数。 假设我们在colA中存储了多年,所以每个存储桶只有一年的行数。我们可以通过运行来验证这一点,并查看是否所有的桶只有一年的行。
SELECT distinct Year FROM bucketed_table tablesample(bucket 1 out of Y on year);
SELECT distinct Year FROM bucketed_table tablesample(bucket 2 out of Y on year);
此外,我们可以通过使用where子句运行查询来验证计数。 SELECT count(*) FROM bucketed_table tablesample(bucket 1 out of Y on year);
//suppose that bucket 1 stores year X
SELECT count(*) FROM bucketed_table where year=X;
这又是不是检查您的hvie桶的正确性肯定拍的方式,但肯定的,如果你知道数据良好,您可以使用此策略来验证你的表。
相关问题
- 1. gitlab健康检查不健康
- 2. SSRS健康检查
- 3. MySQL健康检查
- 4. UDP健康检查
- 5. elb健康检查和ec2健康检查有什么区别?
- 6. Elixir的Postgres健康检查
- 7. WSO2流健康检查
- 8. Haproxy健康检查端口
- 9. Js noob健康检查
- 10. 健康检查MassTransit和Rabbitmq
- 11. C3P0连接健康检查
- 12. HAproxy被动健康检查
- 13. DB健康检查Rails中
- 14. 蜂巢表是空的检查
- 15. HAProxy的Solr的健康检查
- 16. Cloud Foundry中的健康检查
- 17. 健康检查失败 - Atlassian的Localstack
- 18. Spring Data Solr的Spring Boot健康检查
- 19. 查询蜂巢分区表
- 20. Sqoop查询到蜂巢表
- 21. 从蜂巢表
- 22. 蜂巢表锁
- 23. INSERT表蜂巢
- 24. 健康检查为使用SQL Server 2008
- 25. 添加健康检查中Startup.Configure
- 26. 可能有AWS健康检查页面?
- 27. solr健康检查> 0文档
- 28. java pos健康检查问题
- 29. 健康检查无法正常工作
- 30. AWS AutoScaling:如何禁用健康检查
DESCRIBE EXTENDED只是返回元数据信息。我如何确保数据正确分配? –