浆纱 有由Hortonworks给计算您上浆
((初始大小+年增长+中间体数据大小)* REPL Cpount * 1.2)/ COMP RATIO
假设默认的公式乏
repl_count == 3(默认) comp_ration = 3-4(默认) 中间体数据大小= 30%的原始数据大小.- 1,2-因子-50% - 临时空间
因此,对于您的第一年,您将需要16.9 TB。你有8TB * 5 == 40.所以空间不是话题。
性能 5 Datanodes。阅读1 TB平均需要2.5小时(源Hadoop - 权威指南)。一个驱动器的600 GB将是1.5个小时。估计您已复制,以便可以并行使用全部5个节点,这意味着读取5个节点的整个数据可能会长达18分钟。
根据您对查询所做的操作以及如何配置数据处理,您可能需要增加一些时间。
内存consumution
48 GB并不多。许多数据节点的默认RAM从128 GB开始。如果仅将群集用于处理,则可能会解决问题。也取决于一点,如何配置集群以及您用于处理哪些技术。如果您具有并发访问权限,则可能会遇到堆错误。
概括起来:
这很大程度上取决于你想要做什么,你集群和多么复杂你的查询都是。同时请记住,并发访问可能会产生问题。
如果处理时间为600 GB的数据需要18分钟(作为基线 - 实际值取决于许多未知的因素,则回答该问题)就足够了,并且您没有并发访问权限。
正如我刚才所说,我不需要每次执行7tb数据,每个月我只能分析600GB的数据。 – Ank
我根据您的输入编辑了我的答案 –