etl

    0热度

    1回答

    我有一个问题给你。如果我在Databricks中构建了一个将数据加载到BigQuery中的ETL,但是我希望在每次运行ETL之前擦除BigQuery表,那么这可能吗?对新手问题抱歉!谢谢!!!

    0热度

    1回答

    我在Databricks上运行一个ETL,写入BigQuery。我试图让代码“WRITE_TRUNCATE”,也就是每次运行时都要写数据。这涉及更改BigQuery配置。 我试过一堆东西,但还没有得到它的工作。这里是我当前的代码片段: import com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration val conf = sc.ha

    2热度

    3回答

    我在AWS设置ETL管道如下 input_rawdata - > S3 - >拉姆达 - >触发火花ETL(通过AWS胶)脚本 - >输出(s3,parquet文件) 我的问题是让我们假设上面是数据的初始负载,我该如何设置运行每天(或每小时)增加新行或更新现有记录的增量批次 a。)我如何继续添加到相同的s3镶木地板文件。以便随后的presto db查询产生最新的数据。 b。)如何处理重复记录获取查

    0热度

    1回答

    好让我们说,我有以下的.txt文件中包含总额3行: cat my_file_to_load.txt 993408 Sep 01 12:46:46 2017 Sep 01 12:46:51 2017 的文件是具体数据从一个巨大的日志文件中提取。 第一行是success_rows的数量,第二行是start_time,第三行是end_time。 我在这种情况下,要求是“格式”中的数据因此,为

    0热度

    1回答

    我已经创建了一个转换,它将从'.js'文件中读取Flat Json数据,并根据元数据输入字段名称修改JSON字段(键)元数据目标字段名称由用户指定。 此外,我正在使用ETL元数据注入步骤将元数据输入注入步骤:JSON输入,选择/重命名值和Json输出。 请找到这都是我为元数据注入了JSON输入创建的转换: 改造1:要获得其中包含JSON文件并调用JSON转型执行人的目录。 转型2:获取元数据输入,

    0热度

    1回答

    我在Pentaho步骤之一中创建了一个DB连接。我正在将我的环境从Oracle迁移到PostgreSQL。对PostgreSQL来说是全新的,我无法摆脱这些错误。加入如下: select t.contract, t.calender, t.mspprovider, t.mspcustomer, t.objectname, t.granularity

    1热度

    3回答

    我目前正在使用SSIS将一大堆CSV文件定期导入到我们的系统中。这些导入过程使用SQL Server代理进行安排 - 应该有一个愉快的结局。然而,我们收到数据的供应商之一喜欢每隔一段时间更改一次文件格式(感觉像是一个月两次),在SSIS中实施这些更改是一个极大的痛苦。 对我来说,将这些导入到SQL Server中的方式有​​没有那么痛苦?我的要求相当简单: 文件格式为CSV,它们用逗号分隔,并且用

    1热度

    3回答

    我正在使用DB2实用程序处理从CSV到DB2的ETL过程。挑战在于在导入命令中将动态文件名称指定为db2变量。 下面是示例代码, connect to database; CREATE OR REPLACE VARIABLE filenamePath VARCHAR(225); SET filenamePath= concat(concat('Z:/directory/file_',ts_fm

    0热度

    2回答

    尝试使用SAS中的LAG功能复制迁移到SAS DI中的一段代码,但在SAS DI中似乎并没有相同的功能。 目前使用SAS DI 4.21,目标是尽快提高到4.9。 所以我的问题是,是否有在SAS DI复制下面的代码的另一种方式: DATA work.dm_chg_bal; SET tmp_bal_chg; FORMAT dt2 date9.; acct_id2 = LAG1(acct_id)

    0热度

    1回答

    我想微秒转换成数据: 6000 - > 1997年2月12日(像这样)。 这意味着新的字段包含年 - 月 - 日,时,分,秒,毫秒 THX。