pentaho

    0热度

    2回答

    我正在开发ETL。第一步是文本文件输入,它将来自“附加输出字段”的一些元数据添加到流中,包括文件名和上次修改。 我必须向DB进行查询,以验证具有最后修改日期时间的文件名是否已经被处理。如果是这样,流必须停止,并且下一步不能被处理。 这可能吗?我用google搜索了一下,发现没有例子。

    0热度

    1回答

    Consumer-transformationProducer-transformation 目的: 转移表(120个表)从Oracle数据库Vertica的数据库。 目前的做法: 使用Pentaho的工具来提取从Oracle数据库数据,并存储为文件并重新加载它们到Vertica的数据库。 问题: 整个过程运行很长时间。 将其存储为文件占用更多空间并降低性能。 新方法: 使用Kafka作为消息系统

    0热度

    1回答

    正在使用pentaho bi服务器社区版。我想将pentaho报告集成到我的angular2 web应用程序中。我把报告放在pentaho服务器的一个文件夹中,我想从这个文件夹中读取文件名。

    0热度

    2回答

    我正在使用Pentaho创建ETL,我非常关注性能。我开发了一个从Sql server 2088复制163.000.000行到PostgreSQL的ETL过程,需要17小时。 我不知道这种表现有多好或不好。你知道如何衡量,如果需要一些过程的时间是好的?至少作为参考知道我是否需要继续在性能方面进行大量工作。 此外,我想知道在ETL过程的前2分钟内加载2M行是否正常。我计算加载所有行需要多长时间。预期

    1热度

    1回答

    我需要从MSSQL Server数据库中的存储过程获取结果。我尝试了不同的方法: 使用表输入步骤,使用此查询:exec dbo.storedproc @param1 = 5, @param2 = 12, @param3 = null, @param4 = null, @param5 = '2017/08/29', @param6 = 1。当我右键单击它 - >显示输出字段时,它显示存储过程的输出字

    0热度

    1回答

    我使用表输入步骤从oracle数据库中提取数据,并通过一些串联加载到Apache Kafka生产者(输出步骤)。提取200万行花费近6分钟(包含表50列)。通过查看它的日志,我发现表输入步骤需要更长时间。如何提高表格输入步骤中的性能?

    0热度

    2回答

    请帮忙!我有很多pdf文件(〜6000)。现在他们被命名为uniqueidentifier数据类型,并位于我的电脑文件夹中。 在数据库中,它们的名称位于File_ID列中。还有列File_type,First_name,Last_name 我需要用新格式“First_name Last_name File_type.pdf”重命名文件。 我在PDI中创建了转换,查找后我有需要格式的文件名。 但我应

    0热度

    3回答

    我是新的水壶,所以我要运行3个水壶脚本1.ktr,2.ktr,3.ktr一个接一个。 有人可以给我这个想法如何实现这个使用水壶的步骤。

    0热度

    1回答

    我已经创建了一个转换,它将从'.js'文件中读取Flat Json数据,并根据元数据输入字段名称修改JSON字段(键)元数据目标字段名称由用户指定。 此外,我正在使用ETL元数据注入步骤将元数据输入注入步骤:JSON输入,选择/重命名值和Json输出。 请找到这都是我为元数据注入了JSON输入创建的转换: 改造1:要获得其中包含JSON文件并调用JSON转型执行人的目录。 转型2:获取元数据输入,

    0热度

    2回答

    我在不同的数据库中有2个用户表,我想从这些表中只获得唯一的行。 在以下示例中,我需要没有重复名称的电子邮件列表。 我正在使用Pentaho DI水壶。 表从数据库从用户数据库2 ID | Name | Email --- | ----------- | ------------- 1 | Jonh Stott | [email protected] --- | ----------- |