2014-02-28 54 views
2

在导入〜5 GB的文件与〜41万行至BigQuery识别错误,我收到以下错误消息:如何加载数据时至BigQuery

Errors: 
File: 0/Offset:4026531933/Line:604836/Field:39, Value cannot be converted to expected type. 

我的问题:我将如何使用失调/上面的错误消息中的行信息,以确定违规记录的行号?

回答

3

对于大文件,BigQuery将它们拆分为大块并将它们并行加载。这意味着BigQuery不知道在特定片段之前有多少行,因为文件被字节范围分块。所提到的偏移量是从文件开头开始的块,以字节为单位。所以错误应该在4026531933th字节后604836行。

您可以用坏值在Unix上用隔离线:

tail -c +4026531933 <input file> | head -n $((604836 + 1)) | tail -1 

或者与SED:

尾-c + | sed -n $((+ 1))p

相关问题