etl

0热度

1回答

我有一个问题给你。如果我在Databricks中构建了一个将数据加载到BigQuery中的ETL，但是我希望在每次运行ETL之前擦除BigQuery表，那么这可能吗？对新手问题抱歉！谢谢！！！

0热度

1回答

Databricks ETL - > BigQuery，WRITE_TRUNCATE不起作用

我在Databricks上运行一个ETL，写入BigQuery。我试图让代码“WRITE_TRUNCATE”，也就是每次运行时都要写数据。这涉及更改BigQuery配置。我试过一堆东西，但还没有得到它的工作。这里是我当前的代码片段： import com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration val conf = sc.ha

2热度

3回答

ETL管道在AWS与S3作为datalake如何处理增量更新

我在AWS设置ETL管道如下 input_rawdata - > S3 - >拉姆达 - >触发火花ETL（通过AWS胶）脚本 - >输出（s3，parquet文件）我的问题是让我们假设上面是数据的初始负载，我该如何设置运行每天（或每小时）增加新行或更新现有记录的增量批次 a。）我如何继续添加到相同的s3镶木地板文件。以便随后的presto db查询产生最新的数据。 b。）如何处理重复记录获取查

0热度

1回答

将.txt文件中的值转换并加载到Oracle表| unix |甲骨文

好让我们说，我有以下的.txt文件中包含总额3行： cat my_file_to_load.txt 993408 Sep 01 12:46:46 2017 Sep 01 12:46:51 2017 的文件是具体数据从一个巨大的日志文件中提取。第一行是success_rows的数量，第二行是start_time，第三行是end_time。我在这种情况下，要求是“格式”中的数据因此，为

0热度

1回答

用户定义的JSON输入到使用PDI的期望的JSON输出元数据注入

我已经创建了一个转换，它将从'.js'文件中读取Flat Json数据，并根据元数据输入字段名称修改JSON字段（键）元数据目标字段名称由用户指定。此外，我正在使用ETL元数据注入步骤将元数据输入注入步骤：JSON输入，选择/重命名值和Json输出。请找到这都是我为元数据注入了JSON输入创建的转换：改造1：要获得其中包含JSON文件并调用JSON转型执行人的目录。转型2：获取元数据输入，

0热度

1回答

在Pentaho中使用PostgreSQL

我在Pentaho步骤之一中创建了一个DB连接。我正在将我的环境从Oracle迁移到PostgreSQL。对PostgreSQL来说是全新的，我无法摆脱这些错误。加入如下： select t.contract, t.calender, t.mspprovider, t.mspcustomer, t.objectname, t.granularity

1热度

3回答

自动导入SQL Server中的CSV文件

我目前正在使用SSIS将一大堆CSV文件定期导入到我们的系统中。这些导入过程使用SQL Server代理进行安排 - 应该有一个愉快的结局。然而，我们收到数据的供应商之一喜欢每隔一段时间更改一次文件格式（感觉像是一个月两次），在SSIS中实施这些更改是一个极大的痛苦。对我来说，将这些导入到SQL Server中的方式有没有那么痛苦？我的要求相当简单：文件格式为CSV，它们用逗号分隔，并且用

1热度

3回答

如何在IBM DB2 IMPORT命令中添加动态文件名路径？

我正在使用DB2实用程序处理从CSV到DB2的ETL过程。挑战在于在导入命令中将动态文件名称指定为db2变量。下面是示例代码， connect to database; CREATE OR REPLACE VARIABLE filenamePath VARCHAR(225); SET filenamePath= concat(concat('Z:/directory/file_',ts_fm

0热度

2回答

SAS DI LAG1的替代方案？

尝试使用SAS中的LAG功能复制迁移到SAS DI中的一段代码，但在SAS DI中似乎并没有相同的功能。目前使用SAS DI 4.21，目标是尽快提高到4.9。所以我的问题是，是否有在SAS DI复制下面的代码的另一种方式： DATA work.dm_chg_bal; SET tmp_bal_chg; FORMAT dt2 date9.; acct_id2 = LAG1(acct_id)

0热度

1回答

Pentaho的壶值转换

我想微秒转换成数据： 6000 - > 1997年2月12日（像这样）。这意味着新的字段包含年 - 月 - 日，时，分，秒，毫秒 THX。