2016-12-22 70 views
0

如果使用extra_package选项来使用自定义ParDo,那么使用Python SDK,作业似乎永远挂起(我必须在某个时候手动将其终止)。作业永远挂起,没有日志

这里是例如作业ID:2016-12-22_09_26_08-4077318648651073003

没有明确的日志或错误抛出...

我注意到这是关系到extra_package选项,因为如果我使用这个选项,而不实际触发ParDo(代码注释),它也不起作用。 初始Bq查询具有简单的输出模式并且无变换步骤。

它发生在某人身上吗?

P.S:我正在使用DataFlow 0.4.3版本。我一个VENV内部测试,这似乎与DirectPipelineRunner

+0

对不起。根据Cloud Logging中工作人员的工作日志,似乎您的extra_package可能与Dataflow的包是二进制不兼容的,或者类似的东西。问题仍然在发生还是您最终能够成功完成工作?包是什么? – jkff

+0

不用担心,我确认。我的根目录中的requirements.txt和extra_package中的requirements.txt是不同的。导致DataFlow容器中的exec.go一次又一次失败。我最终重新创建了具有相同冻结依赖性的venv。 – thylong

回答

0

工作正如thylong和JKFF确定:

的extra_package与数据流的包二进制兼容。根目录中的requirements.txt和extra_package中的requirements.txt不同,导致DataFlow容器中的exec.go一再失败。为了解决这个问题,我们用相同的冻结依赖重新创建了venv。