批处理Dataflow作业处理完所有数据后是否可以执行操作?具体来说,我想将刚刚处理的流水线的文本文件移动到不同的GCS存储桶中。我不确定将数据放入管道中的位置,以确保在数据处理完成后执行一次。在Dataflow流水线处理完所有数据后执行操作
0
A
回答
1
我不明白为什么你需要做这个后管道执行。您可以使用侧面输出将文件写入多个存储桶,并在管道完成后保存自己的副本。
如果这不适合你(无论什么原因),那么你可以简单地在blocking execution模式下运行你的管道,即使用pipeline.run().waitUntilFinish()
,然后在那之后写下你的代码的其余部分。
[..]
/do some stuff before the pipeline runs
Pipeline pipeline = ...
pipeline.run().waitUntilFinish();
//do something after the pipeline finishes here
[..]
-1
我觉得两个选项可以帮助你在这里:
1)使用TextIO写入桶或你想要的,指定的确切GCS路径(如GS文件夹://沙箱/其他桶)
2)使用Object Change Notifications结合Cloud Functions。你可以在这个here和JS的GCS SDK中找到一个很好的入门书。在这个选项中你将做的事情基本上是在某物桶落下时设置一个触发器,并使用自己写的云功能将其移动到另一个。
相关问题
- 1. Dataflow流水线在执行GroupBy之前等待来自所有流的元素
- 2. label.setVisible(true)在处理完成后才会执行任何操作
- 3. 在流水线执行中采用并行处理
- 4. Dataflow TPL使用预先条件执行流水线
- 5. 在所有行完成执行而没有最终执行后处理异常
- 6. 所有异步处理程序完成后执行javascript函数
- 7. 在处理完所有数据后触发作业
- 8. 完成observable完成后要执行的操作后,如何执行操作?
- 9. 尝试计算执行五级流水线处理器
- 10. 保留执行流水线
- 11. 在完成操作后执行某些操作
- 12. startActivity完成后执行某些操作
- 13. AsyncTask完成后执行操作
- 14. 筛选数据后执行操作
- 15. 数据渲染后执行操作
- 16. hadoop-streaming:一旦工作完成后自动执行后处理?
- 17. 流水线中的多处理完成正确
- 18. 使用DataFlow和RX的连续数据流停止处理
- 19. R使用匿名函数进行流水线操作
- 20. Artifactory作为Jenkins流水线中的后期构建操作
- 21. HTTP流水线和错误处理
- 22. 文本处理流水线文件
- 23. Redis流水线,处理缓存丢失
- 24. VHDL中的图像处理流水线
- 25. arm组装中的流水线处理
- 26. 我如何确保在所有线程完成执行后执行语句
- 27. 后台工作线程中的函数调用只有在主线程执行完成后才能执行?
- 28. C#在BackgroundWorker后执行一些操作RunWorker完成完成
- 29. 批量执行流操作
- 30. 当数据库完成处理/加载数据时执行宏
谢谢。使用'BlockingDataflowPipelineRunner'运行这个工作就可以实现。 'waitUntilFinish()'似乎在1.x Java API中不可用。 – user01380121
正确,不是。您在1.x中使用Blocking runner和wait/poll –