apache-flink

    0热度

    2回答

    我需要一些帮助,使用Scala代码将数据从输出NiFi端口传输到Flink。 我卡在.addSource()函数。它要求额外的参数([OUT]),但是当我提供它们时,我不断收到错误。下面是Scala代码和错误消息。 package flinkTest import java.nio.charset.{Charset, StandardCharsets} import org.apache.

    0热度

    1回答

    我正在测试flink处理不同数据量的性能,所以我需要Job Runtime来记录和分析。 当我使用flink来处理一万个记录这样的小数据集时,我可以得到Job Runtime日志如下。 07/18/2017 17:41:47 DataSink (collect())(1/1) switched to FINISHED 07/18/2017 17:41:47 Job execution switc

    1热度

    1回答

    我是新来弗林克多个文件,我的理解是继API调用 StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path) 将并行读取该文件给出S3存储路径。 我们存储S3的日志文件。要求是服务多个客户端请求从具有时间戳的不同文件夹读取。 对于我的使用情况,服务多个客户端的请求,我正在评估使用弗林克。因此,我希望Fli

    1热度

    1回答

    是否可以从Flink流作业触发检查点? 我的用例是:我有两个流R和S加入翻滚时间窗口。来源是卡夫卡。我使用事件时间处理和BoundedOutOfOrdernessGenerator来确保来自两个流的事件在同一个窗口中结束。 问题是我的状态很大,有时定期检查点需要的时间太长。起初,我想禁用检查点,并依赖卡夫卡胶印。但乱序意味着我已经在当前偏移量的未来窗口中获得了一些数据。所以我需要检查点。 如果可以

    1热度

    1回答

    我试图编写一个将数据流汇入到postgres表的流式作业。为了提供全部信息,我基于我的文章:https://tech.signavio.com/2017/postgres-flink-sink,其中建议使用JDBCOutputFormat。 我的代码如下所示:现在 98 ... 99 String strQuery = "INSERT INTO public.alarm (entity, d

    1热度

    1回答

    我想使用Flink Table API在同一个字段上连接两个表。 我想要实现 SELECT a.id b.id FROM table1 AS a JOIN table2 AS b ON a.id = b.id 我试过了,但发现来实现我的目标的唯一途径就是像 val table1 = tableEnv.fromDataSet(dbData,

    0热度

    1回答

    的数据流是简单的像 卡夫卡 - >一些逻辑 - >卡夫卡 和“一些逻辑”是一个瓶颈这里,所以我想使用多个线程/任务来增加吞吐量而不是增加kafka分区(目前是3)。输入和输出主题之间的顺序在这里并不重要。 它可以很容易地与Apache Storm完成。我可以为某些逻辑增加螺栓的并行性。我如何用Flink做到这一点?更普遍的问题是,是否有任何简单的方法在Flink的不同阶段使用不同的并行性?

    1热度

    1回答

    我想在Flink中的每个节点上共享一个HashMap,并允许节点更新该HashMap。我有这样的代码至今: object ParallelStreams { val env = StreamExecutionEnvironment.getExecutionEnvironment //Is there a way to attach a HashMap to this confi

    1热度

    1回答

    我知道flink收集延迟指标,但我想知道如何获得我作业的延迟数据。 我是否必须使用自定义记者(例如石墨)来查看延迟? 我看到flink仪表板中存在延迟度量标准,但添加了接收器运算符的延迟时没有数据。 如果这不是延迟数据,它是什么? 谢谢。 我正在使用Flink V1.2.1。

    1热度

    1回答

    DataStream<Sensor> processStream = inputDataStream.filter(new TransientFallFilter()); DataStream<Event> outputStream = processStream.keyBy("k", "s").timeWindow(Time.minutes(2)).apply(new TransientRi