0
重命名摄入的文件我们有一个AWS S3存储桶,我们可以以10分钟的时间间隔获取新的CSV文件。目标是将这些文件摄入Hive。如何将Apache Flume配置为不使用.COMPLETE
所以对我来说显而易见的方式是使用Apache Flume
为此并使用Spooling Directory
来源,它将不断寻找登陆目录中的新文件并将它们摄入Hive中。
我们有read-only
权限S3存储桶和登陆目录中的文件将被复制和Flume
后缀摄入文件后缀.COMPLETED
。因此,在我们的案例中,由于许可问题,Flume将无法标记完成的文件。
现在的问题是:
- 如果水槽不能后缀添加到完成 文件会发生什么?它会给出任何错误还是会默默地失败? (我实际上正在测试这个,但如果有人已经试过这个,那么我不必重新发明轮子)
- 是否 Flume将能够摄取文件而不用
.COMPLETED
标记? - 是否有更好的其他大数据工具/技术 适合此用例?