pentaho

0热度

2回答

我正在开发ETL。第一步是文本文件输入，它将来自“附加输出字段”的一些元数据添加到流中，包括文件名和上次修改。我必须向DB进行查询，以验证具有最后修改日期时间的文件名是否已经被处理。如果是这样，流必须停止，并且下一步不能被处理。这可能吗？我用google搜索了一下，发现没有例子。

0热度

1回答

阿帕奇卡夫卡消费者花费很长时间

Consumer-transformationProducer-transformation 目的：转移表（120个表）从Oracle数据库Vertica的数据库。目前的做法：使用Pentaho的工具来提取从Oracle数据库数据，并存储为文件并重新加载它们到Vertica的数据库。问题：整个过程运行很长时间。将其存储为文件占用更多空间并降低性能。新方法：使用Kafka作为消息系统

0热度

1回答

获取文件名pentaho rest api

正在使用pentaho bi服务器社区版。我想将pentaho报告集成到我的angular2 web应用程序中。我把报告放在pentaho服务器的一个文件夹中，我想从这个文件夹中读取文件名。

0热度

2回答

Pentaho的预期性能如何？

我正在使用Pentaho创建ETL，我非常关注性能。我开发了一个从Sql server 2088复制163.000.000行到PostgreSQL的ETL过程，需要17小时。我不知道这种表现有多好或不好。你知道如何衡量，如果需要一些过程的时间是好的？至少作为参考知道我是否需要继续在性能方面进行大量工作。此外，我想知道在ETL过程的前2分钟内加载2M行是否正常。我计算加载所有行需要多长时间。预期

1热度

1回答

从SQL Server存储过程获取结果

我需要从MSSQL Server数据库中的存储过程获取结果。我尝试了不同的方法：使用表输入步骤，使用此查询：exec dbo.storedproc @param1 = 5, @param2 = 12, @param3 = null, @param4 = null, @param5 = '2017/08/29', @param6 = 1。当我右键单击它 - >显示输出字段时，它显示存储过程的输出字

0热度

1回答

改善pentaho表输入步骤性能

我使用表输入步骤从oracle数据库中提取数据，并通过一些串联加载到Apache Kafka生产者（输出步骤）。提取200万行花费近6分钟（包含表50列）。通过查看它的日志，我发现表输入步骤需要更长时间。如何提高表格输入步骤中的性能？

0热度

2回答

重命名文件Pentaho Kettle

请帮忙！我有很多pdf文件（〜6000）。现在他们被命名为uniqueidentifier数据类型，并位于我的电脑文件夹中。在数据库中，它们的名称位于File_ID列中。还有列File_type，First_name，Last_name 我需要用新格式“First_name Last_name File_type.pdf”重命名文件。我在PDI中创建了转换，查找后我有需要格式的文件名。但我应

0热度

3回答

如何一个接一个地运行3个水壶脚本

我是新的水壶，所以我要运行3个水壶脚本1.ktr，2.ktr，3.ktr一个接一个。有人可以给我这个想法如何实现这个使用水壶的步骤。

0热度

1回答

用户定义的JSON输入到使用PDI的期望的JSON输出元数据注入

我已经创建了一个转换，它将从'.js'文件中读取Flat Json数据，并根据元数据输入字段名称修改JSON字段（键）元数据目标字段名称由用户指定。此外，我正在使用ETL元数据注入步骤将元数据输入注入步骤：JSON输入，选择/重命名值和Json输出。请找到这都是我为元数据注入了JSON输入创建的转换：改造1：要获得其中包含JSON文件并调用JSON转型执行人的目录。转型2：获取元数据输入，

0热度

2回答

删除不同数据库中2个表的重复行

我在不同的数据库中有2个用户表，我想从这些表中只获得唯一的行。在以下示例中，我需要没有重复名称的电子邮件列表。我正在使用Pentaho DI水壶。表从数据库从用户数据库2 ID | Name | Email --- | ----------- | ------------- 1 | Jonh Stott | [email protected] --- | ----------- |