2017-02-10 124 views
0

我想使用火花流监控s3目录并返回添加到该目录的任何新文件的路径。 textFileStream和fileStream似乎都无法做到这一点。实际上有办法完成我想要做的事吗?从火花传输中读取新的s3文件路径

编辑:Spark ver。 2.1.0

+0

Spark版本? – mrsrinivas

+0

@mrsrinivas spark 2.1.0 – foboi1122

+1

你可以添加你试过的代码吗?确保您已正确配置访问密钥和密钥,以访问s3文件系统。 – mrsrinivas

回答

0

它使用s3a://执行此操作;我有测试证明它。

  1. 设置了一个足够大的窗口来处理延迟扫描目录,并清理它。
  2. 你可以直接写入目的地“目录”;无需编写然后重命名。如果你这样做:文件被复制并拿起窗口。
  3. 不要在那里设置检查点