google-cloud-dataflow

0热度

1回答

昨天我开始了Google-Dataflow的工作，通常运行时间大约10-30分钟。它今天早上还在运行。当查看堆栈驱动程序时，我看到一个作业日志的重复循环： I Refused to split GroupingShuffleReader <at position ShufflePosition(base64:AAAABOA3nVgAAQ) of shuffle range [ShufflePosi

0热度

2回答

工作流失败。原因：（35af2d4d3e5569e4）：数据流似乎卡住

我正在使用Google Dataflow Service为ETL运行一些apache-beam脚本。最初完成需要4-5分钟才能完成的作业，但是现在一小时后它们会失败并出现以下错误。工作流失败。原因：（35af2d4d3e5569e4）：Dataflow似乎卡住了。看来，这项工作并没有真正开始。我正在通过使用Python SDK 2.1.0执行它作为this问题的答案切换SDK的问题，我尝试

0热度

1回答

从数据流1.9到2.0/2.1的意外行为更改

对于非常简单的管道，我们发现Dataflow SDK 1.9和2.0/2.1之间存在非常奇怪的差异。我们有CoGroupByKey步骤，通过它们的键连接两个PCollections并输出两个PCollections（通过TupleTags）。例如，一个PCollection可能包含{“str1”，“str2”}，另一个可能包含{“str3”}。这两个PCollections被写入GCS（位于不

0热度

1回答

无效的日期时间错误，而试图从数据流

插入datetime值至BigQuery我们写了插入值到BigQuery的表，其列是DateTime类型的谷歌数据流的代码。大部分时间逻辑运行良好。但突然我们得到无效的DateTime问题。 Exception: java.lang.RuntimeException: java.io.IOException: Insert failed: [{"errors":[{"debugInfo":"g

0热度

1回答

从扳手读取谷歌数据流

我想从谷歌的扳手数据库中读取表格，并将其写入文本文件做一个备份，使用谷歌数据流与python sdk。我写了下面的脚本： from __future__ import absolute_import import argparse import itertools import logging import re import time import datetime as dt

1热度

1回答

Apache Beam窗口和分片BigQuery输出表格

我的用例很简单：从Pub/Sub订阅中读取事件日志，解析它们并保存到BigQuery中。由于事件数量预计会显着增加，我使用无限数据源，因此我决定在BigQuery中配置分片：根据事件数据的时间戳将事件存储到日常表格中（Beam文档中称为“事件时间”），。我的问题是我需要配置窗口在我的情况下，或者我可以保留隐式使用全局窗口的默认配置？我问的原因是因为我发现大部分BigQuery分片的例子都假设

1热度

1回答

数据流模板中的动态bigquery查询

我写了一个Dataflow作业，当我手动运行它时效果很好。下面是相关部分（为清楚起见移除了一些验证码）： parser.add_argument('--end_datetime', dest='end_datetime') known_args, pipeline_args = parser.parse_known_args(argv) query = <redacted

0热度

1回答

阿帕奇梁Python的依赖

我有我要在Apache梁管道与数据流转轮内使用本地Python包。我试图按照文档中提供的说明：https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/（部分本地或非PyPI将依赖），但没有成功。我的包具有以下结构： my_common ├── __init__.py └── shared ├─

2热度

1回答

Beam - 会话窗口无法按预期发送结果

我正在构建一个将在Google Cloud Dataflow中运行的Apache Beam（v2.0）管道。预期流程如下：来自Pub/Sub的事件流（无界数据源）。它们是简单的JSON对象，具有sessionId属性。使用自定义的DoFn事件到KV<String, String>，其中他们的关键是sessionId并且该值是整个JSON对象。使用会话窗口的窗口事件（开发时间间隔为2秒，生产时

0热度

1回答

GCP Dataflow-从存储读取CSV文件，写至BigQuery

我在存储CSV文件，我想读它，并将其写入BigQuery资料表。这是我的CSV文件，其中第一行是标题： GroupName,Groupcode,GroupOwner,GroupCategoryID System Administrators,sysadmin,13456,100 Independence High Teachers,HS Teachers,,101 John Glenn Mi