3
我想玩Jupyter笔记本上的Dataflow for Python SDK。我不确定需要什么样的依赖关系,以及我是否可以将代码分散到多个笔记本单元中。涉及的步骤是什么?我可以从Jupyter笔记本中使用Dataflow for Python SDK吗?
我想玩Jupyter笔记本上的Dataflow for Python SDK。我不确定需要什么样的依赖关系,以及我是否可以将代码分散到多个笔记本单元中。涉及的步骤是什么?我可以从Jupyter笔记本中使用Dataflow for Python SDK吗?
是的!没有涉及特殊步骤。例如,使用一个康达环境(推荐使用IPython的/ Jupyter笔记本)的命令以启动一个Jupyter笔记本是:
以上命令安装Python数据流的版本v0.2.3。请将其更改为所需的版本。在第一台笔记本电池执行下面的import语句:
进口google.cloud.dataflow作为DF
现在,你都设置。您可以将工作流代码分散到多个单元格中。查看下面描述一个非常简单的工作流程的笔记本:https://github.com/silviulica/WorkflowExamples/blob/master/notebooks/HelloWorld.ipynb
但是,请注意,p.run()会评估添加到管道的所有操作,因为它们是从创建开始的。特别是,多次重新评估单元而不重新创建管线对象会导致操作将* added *添加到当前管线中 - 它不会替换之前对该单元的评估所添加的操作。因为这个原因,让p.run()与流水线创建在同一个单元中有时会更简单,即使您的流水线结构分布在多个函数中,并且PTransforms在其他单元中定义。 – robertwb