我正在使用Big Query进行测试。基本上我有50,000个文件,平均每个文件大小为27MB。一些较大,一些较小。从Google云端存储加载到Big Query似乎很慢
定时上传的每个档案显示:
真正0m49.868s 用户0m0.297s SYS 0m0.173s
使用类似于:
时间BQ负载--encoding =“UTF -8" --field_delimiter = “〜” 数据集GS://project/b_20130630_0003_1/20130630_0003_4565900000.tsv schema.json
运行命令: “LS BQ -j”,并随后运行 “BQ显示-j” 揭示了我有任务执行过程中遇到
作业类型国家开始时间持续字节加工
加载失败7月01日22点21分18秒0:00:00
错误:E采用错误。超过配额:每张表对于此表过多的进口数
检查完数据库后,行似乎已加载正常,这令人费解,因为出现错误,我预计没有任何内容会被加载。问题是,我真的不明白我是如何达到配额限制的,因为我刚刚刚刚开始上传文件 ,并认为限制为200,000个请求。
所有数据当前都在Google云端存储上,所以我期望数据加载的发生相当快,因为云存储和Big Query之间的交互都在云端。
按我的计算,整个负荷将会是:(50,000 * 49秒)28天。
有点希望这些数字是错的。
谢谢。
回头仔细阅读BQ命令行实用程序帮助。看来我正在将每个文件作为单独的加载作业加载。我认为这是造成这个问题的原因。对于我来说,你可以使用globbing而不是加载每个文件,即bq load --encoding =“UTF-8”--field_delimiter =“〜”数据集gs:// cs/b_20130630_0003_1/* schema.json。注意通配符。将尝试使用最多10,000个文件执行加载作业。 – richjcooper
我很想知道这究竟是什么!那是一个疯狂的文件数量 –