google-cloud-dataflow

    0热度

    1回答

    昨天我开始了Google-Dataflow的工作,通常运行时间大约10-30分钟。它今天早上还在运行。当查看堆栈驱动程序时,我看到一个作业日志的重复循环: I Refused to split GroupingShuffleReader <at position ShufflePosition(base64:AAAABOA3nVgAAQ) of shuffle range [ShufflePosi

    0热度

    2回答

    我正在使用Google Dataflow Service为ETL运行一些apache-beam脚本。 最初完成需要4-5分钟才能完成的作业,但是现在一小时后它们会失败并出现以下错误。 工作流失败。原因:(35af2d4d3e5569e4):Dataflow似乎卡住了。 看来,这项工作并没有真正开始。 我正在通过使用Python SDK 2.1.0执行它作为this问题的答案切换SDK的问题,我尝试

    0热度

    1回答

    对于非常简单的管道,我们发现Dataflow SDK 1.9和2.0/2.1之间存在非常奇怪的差异。 我们有CoGroupByKey步骤,通过它们的键连接两个PCollections并输出两个PCollections(通过TupleTags)。例如,一个PCollection可能包含{“str1”,“str2”},另一个可能包含{“str3”}。 这两个PCollections被写入GCS(位于不

    0热度

    1回答

    插入datetime值至BigQuery我们写了插入值到BigQuery的 表,其列是DateTime类型的谷歌数据流的代码。大部分时间逻辑运行良好。 但突然我们得到无效的DateTime问题。 Exception: java.lang.RuntimeException: java.io.IOException: Insert failed: [{"errors":[{"debugInfo":"g

    0热度

    1回答

    我想从谷歌的扳手数据库中读取表格,并将其写入文本文件做一个备份,使用谷歌数据流与python sdk。 我写了下面的脚本: from __future__ import absolute_import import argparse import itertools import logging import re import time import datetime as dt

    1热度

    1回答

    我的用例很简单:从Pub/Sub订阅中读取事件日志,解析它们并保存到BigQuery中。由于事件数量预计会显着增加,我使用无限数据源,因此我决定在BigQuery中配置分片:根据事件数据的时间戳将事件存储到日常表格中(Beam文档中称为“事件时间”), 。 我的问题是我需要配置窗口在我的情况下,或者我可以保留隐式使用全局窗口的默认配置? 我问的原因是因为我发现大部分BigQuery分片的例子都假设

    1热度

    1回答

    我写了一个Dataflow作业,当我手动运行它时效果很好。下面是相关部分(为清楚起见移除了一些验证码): parser.add_argument('--end_datetime', dest='end_datetime') known_args, pipeline_args = parser.parse_known_args(argv) query = <redacted

    0热度

    1回答

    我有我要在Apache梁管道与数据流转轮内使用本地Python包。 我试图按照文档中提供的说明:https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/(部分本地或非PyPI将依赖),但没有成功。 我的包具有以下结构: my_common ├── __init__.py └── shared ├─

    2热度

    1回答

    我正在构建一个将在Google Cloud Dataflow中运行的Apache Beam(v2.0)管道。预期流程如下: 来自Pub/Sub的事件流(无界数据源)。它们是简单的JSON对象,具有sessionId属性。 使用自定义的DoFn事件到KV<String, String>,其中他们的关键是sessionId并且该值是整个JSON对象。 使用会话窗口的窗口事件(开发时间间隔为2秒,生产时

    0热度

    1回答

    我在存储CSV文件,我想读它,并将其写入BigQuery资料表。这是我的CSV文件,其中第一行是标题: GroupName,Groupcode,GroupOwner,GroupCategoryID System Administrators,sysadmin,13456,100 Independence High Teachers,HS Teachers,,101 John Glenn Mi