2017-02-27 46 views
0

我正在使用Spark从文件夹读取文本文件并将它们加载到配置单元。控制文件的Spark Streaming

火花流的间隔为1分钟。在极少数情况下,源文件夹可能有1000个较大的文件。

如何控制火花流传输来限制程序读取的文件数量?目前我的程序正在读取最近1分钟内生成的所有文件。但是我想控制它正在阅读的文件的数量。

我正在使用textFileStream API。

JavaDStream<String> lines = jssc.textFileStream("C:/Users/abcd/files/"); 

有没有什么办法来控制文件流速率?

回答

0

你可以使用“spark.streaming.backpressure.enabled”和“spark.streaming.backpressure.initialRate”控制速率数据已收到!

+0

Kakfa Streaming不是背压吗?你能举个例子吗? – AKC

+0

这些是火花配置,从“spark.streaming.backpressure”名称可以看出!它与卡夫卡完美配合。其他来源我没有测试过。 – rakesh

+0

spark.streaming.kafka.maxRatePerPartition是特定于kafka的配置种类。 – rakesh