我可以从Jupyter笔记本中使用Dataflow for Python SDK吗？

我想玩Jupyter笔记本上的Dataflow for Python SDK。我不确定需要什么样的依赖关系，以及我是否可以将代码分散到多个笔记本单元中。涉及的步骤是什么？我可以从Jupyter笔记本中使用Dataflow for Python SDK吗？

来源

2016-05-06 Silviu

是的！没有涉及特殊步骤。例如，使用一个康达环境（推荐使用IPython的/ Jupyter笔记本）的命令以启动一个Jupyter笔记本是：

康达创建-n TESTENV jupyter
源激活TESTENV
PIP安装https://github.com/GoogleCloudPlatform/DataflowPythonSDK/archive/v0.2.3.tar.gz
jupyter笔记本

以上命令安装Python数据流的版本v0.2.3。请将其更改为所需的版本。在第一台笔记本电池执行下面的import语句：

进口google.cloud.dataflow作为DF

现在，你都设置。您可以将工作流代码分散到多个单元格中。查看下面描述一个非常简单的工作流程的笔记本：https://github.com/silviulica/WorkflowExamples/blob/master/notebooks/HelloWorld.ipynb

来源

2016-05-06 17:16:13 Silviu

但是，请注意，p.run（）会评估添加到管道的所有操作，因为它们是从创建开始的。特别是，多次重新评估单元而不重新创建管线对象会导致操作将* added *添加到当前管线中 - 它不会替换之前对该单元的评估所添加的操作。因为这个原因，让p.run（）与流水线创建在同一个单元中有时会更简单，即使您的流水线结构分布在多个函数中，并且PTransforms在其他单元中定义。 – robertwb

我可以从Jupyter笔记本中使用Dataflow for Python SDK吗？

回答

相关问题