2017-02-14 90 views
1

官方文件说,红移红移集群备份磁盘空间

维护您的数据的至少三个副本(正本和副本的计算节点上,并在亚马逊S3备份)

因此,如果原始和同一群集上都存在
这是否意味着我的群集大小只有实际使用的一半,因为其他一半是由副本占用的? 另外,如何查看或确认群集中的此备份数据?

回答

1

我想你误解了文档。

亚马逊红移,当它被装载复制所有数据的数据仓库 集群中,也不断地将数据备份到 S3。 Amazon Redshift始终尝试维护您的数据(计算节点上的原始副本和副本以及Amazon S3中的备份)的至少三个副本 。

这实际上谈到两种类型的备份:

  1. 原件和副本的计算节点上:此谈论红移的内部备份机制。每个大小超过1个节点的群集由两类节点组成:领导者和计算。这部分内容说Redshift内部支持跨计算节点备份数据,因此如果一个计算节点出现故障,Redshift不会丢失数据。换句话说,这种数据复制可确保持久性。

    当然,额外的备份会占用您的群集空间,但我认为Redshift不允许修改此设置或访问备份数据。这对你来说都是透明的。

  2. 在Amazon S3中备份:您可以访问这些备份,您可以使用现有备份来恢复数据以创建新群集。

关于两者的更多信息可以参考here

+0

感谢您的回答。如果群集中只有一个节点,这种备份是否会在群集中发生,您能否告知我? (我认为领导者和计算节点在这种情况下是相同的) –

+1

由于Redshift文档没有明确提到这一点,我假设它也适用于具有1个节点的集群。 –

2

每个Amazon Redshift计算节点实际上都有两倍于公开说明的存储量。额外用于备份其他节点。

可以在这样的查询看到:

SELECT 
    owner AS node, 
    diskno, 
    used, 
    capacity, 
    used/capacity::numeric * 100 as percent_used 
FROM stv_partitions 
ORDER BY 1, 2; 

主存储是当host = node。对于其他值,它表示存储被用作备份。