2014-09-03 154 views
1

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started表示HDFS接收器支持追加,但我还没有找到任何有关如何启用它的信息,每个示例都在滚动文件上。所以,我希望就如何使水槽附加到现有的文件,如果在所有可能)Flume + HDFS-200追加

更新

一个可以设置所有滚动属性设置为0的任何信息,这将使水槽写到单个文件中,但它不关闭文件,新记录对其他进程不可见。 有一个类似于我的主题:Flume NG and HDFS,德米特里说Flume不支持追加,但答案是一岁,文档说相反,所以我认为可能水槽得到改善或我误解了某些东西,任何线索将是赞赏。

更新

我意识到这个问题不清楚,所以让我描述一下我想要实现: 我想在一个文件中写入日志,我希望能够读他们只要他们被摄入hdfs。目前,我正在使用Cloudera Impala执行搜索查询,即使Flume配置为立即将其刷新到磁盘上,它也不会看到新事件,至少我相信这一点。我的调查显示,通常人们使用HBase来达到这些目的,但据我所知,它并不适用于临时搜索查询,除非使用外部索引(如Solr)。问题是我需要一个尽快解决方案,所以我希望它可以做得更容易,例如Fluentd可以附加到现有的文件,但它只适用于纯文本文件,我更喜欢一些二进制格式。

回答

1

我还没有找到让Flume做我想做的事情的方法,所以最终我决定使用Cloudera搜索日志流式传输,特别是Solr进行摄取和检索。 Flume似乎没有能力在hdfs中实时摄取,而无需创建大量相对较小的文件,希望将来能够修复它。