1

我使用Google Cloud Dataflow来处理绑定数据并输出到BigQuery,我希望它可以处理某些内容并编写一些内容(如流,而不是批处理),有什么办法可以做到这一点?有什么办法可以让Cloud Dataflow输出像流一样?

目前,Dataflow将等待工作进程不要所有数据,并写入BigQuery,我尝试添加FixedWindow并使用Log Timestamp参数为window_timestamp,但它不起作用。

我想知道:

  1. 是开窗来处理这个问题正确的方式?
  2. 是BigQueryIO真的写批处理或者它可能只是不显示在我的仪表板(背景写入流?)
  3. 有什么办法可以做我需要吗?

我的源代码是在这里:http://pastie.org/10907947

非常感谢您!

回答

3

您需要在您的PipelineOptions中将streaming属性设置为true

有关更多信息,请参阅"streaming execution"

此外,您需要使用可以生成/消耗无限数据的源/汇。 BigQuery已经可以在两种模式下编写,但是目前TextIO只能读取有界数据。但是,编写一个自定义的无界源代码可以扫描目录中的新文件,这当然是可能的。

相关问题