我正在使用Spark从文件夹读取文本文件并将它们加载到配置单元。控制文件的Spark Streaming
火花流的间隔为1分钟。在极少数情况下,源文件夹可能有1000个较大的文件。
如何控制火花流传输来限制程序读取的文件数量?目前我的程序正在读取最近1分钟内生成的所有文件。但是我想控制它正在阅读的文件的数量。
我正在使用textFileStream API。
JavaDStream<String> lines = jssc.textFileStream("C:/Users/abcd/files/");
有没有什么办法来控制文件流速率?
Kakfa Streaming不是背压吗?你能举个例子吗? – AKC
这些是火花配置,从“spark.streaming.backpressure”名称可以看出!它与卡夫卡完美配合。其他来源我没有测试过。 – rakesh
spark.streaming.kafka.maxRatePerPartition是特定于kafka的配置种类。 – rakesh