2016-12-11 39 views
0

我的团队正在考虑导出/导入bigtable数据,但只是列族(不是全部)的一个子集用于解决技术问题。导出/导入bigtable的特定列族

这些文档似乎暗示出口/进口只可能用于整个bigtable。

https://cloud.google.com/bigtable/docs/exporting-sequence-files https://cloud.google.com/bigtable/docs/importing-sequence-files

我们希望避免导出整个BT由于其大小(而我们只需要特定的列科进行备份/恢复)。

也许有一个简单的解决方案,我们不知道这一点,所以我想我会问这里。

我们认为的另一种方法是使用Dataflow扫描特定列族,将数据转储到GCS(通过保留快照),并在需要时恢复数据。但是如果我们不需要使用Dataflow,那对我们来说将是一个更好的解决方案。

任何帮助和建议将非常感激!

回答

0

您目前可以通过命令行上的-Dhbase.mapreduce.scan.column.family=<your_family>来设置单个列族。

我们正在努力改善我们的导入/导出流程。如果你愿意,你可以在我们的github issues中申请一个增强,我们应该能够很快得到它。以下应该是比较容易实现的,但目前尚未实现:

-Dhbase.mapreduce.scan.column.families=<your families separated by commas> 
+1

我提交了GitHub的问题:https://github.com/GoogleCloudPlatform/cloud-bigtable-client/issues/1140 –