0

我有一个90 GB的文件.csv我想让我的本地计算机上,然后上传到谷歌的BigQuery进行分析的想法。我创建成千上万的小.csv文件合并成10中型文件,然后结合这些中等大小的文件到90 GB的文件,然后我想要移动到吉贝此文件。我在为这个项目苦苦挣扎,因为我的电脑因内存问题而不断崩溃。从this视频我明白我应该中型.csv文件(约9每个GB)首先转变成.gz文件(约500MB每一个),然后将这些.gz文件上传到谷歌云存储。接下来,我将创建一个空表(在Google BigQuery/Datasets中),然后将所有这些文件附加到创建的表中。我遇到的问题是找到一些有关如何执行此操作的教程或有关如何执行此操作的文档。我是新来的谷歌平台,所以也许这是一个非常简单的工作,可与1次点击某个地方来完成,但所有我能找到的就是从我上面链接的视频。我在哪里可以找到一些关于人们如何做到这一点的帮助或文档或教程或视频?我对工作流程有正确的想法吗?有没有更好的方法(如使用一些可下载的GUI来上传东西)?如何将.gz文件上传到Google Big Query?

+0

你并不需要将文件合并成一个大文件。只需创建你的数据集和表,并使用python,java,ruby或去处理每个文件(或一组文件)并将它们加载到bigquery。我最近做了类似python的事情。让我知道你是否需要底漆。 – Abdou

回答

1

在这里看到的说明: https://cloud.google.com/bigquery/bq-command-line-tool#creatingtablefromfile

由于阿卜杜在评论中提到,你不需要他们提前合并的时间。只需将所有小型CSV文件gzip,上传到GCS存储区,然后使用“bq.py load”命令创建一个新表。请注意,您可以使用通配符语法来避免列出要加载的所有单个文件名。

的--autodetect标志可以让你避免手动指定的模式,虽然这依赖于从采样输入,并可能需要修正,如果它失败,在某些情况下检测。