2016-05-06 44 views

回答

5

是的!没有涉及特殊步骤。例如,使用一个康达环境(推荐使用IPython的/ Jupyter笔记本)的命令以启动一个Jupyter笔记本是:

  1. 康达创建-n TESTENV jupyter
  2. 源激活TESTENV
  3. PIP安装https://github.com/GoogleCloudPlatform/DataflowPythonSDK/archive/v0.2.3.tar.gz
  4. jupyter笔记本

以上命令安装Python数据流的版本v0.2.3。请将其更改为所需的版本。在第一台笔记本电池执行下面的import语句:

进口google.cloud.dataflow作为DF

现在,你都设置。您可以将工作流代码分散到多个单元格中。查看下面描述一个非常简单的工作流程的笔记本:https://github.com/silviulica/WorkflowExamples/blob/master/notebooks/HelloWorld.ipynb

+0

但是,请注意,p.run()会评估添加到管道的所有操作,因为它们是从创建开始的。特别是,多次重新评估单元而不重新创建管线对象会导致操作将* added *添加到当前管线中 - 它不会替换之前对该单元的评估所添加的操作。因为这个原因,让p.run()与流水线创建在同一个单元中有时会更简单,即使您的流水线结构分布在多个函数中,并且PTransforms在其他单元中定义。 – robertwb

相关问题