flume

    1热度

    2回答

    我试图通过水槽从kafka hdfs中的数据。 kafka_producer每10秒发送一条消息。我会收集所有消息在hdfs上的一个文件。 这是水槽,我使用的配置,但是它存储在HDFS许多文件(一个用于消息): agent1.sources.kafka-source.type = org.apache.flume.source.kafka.KafkaSource agent1.sources.k

    1热度

    1回答

    我可以使用flume获取tweet,但是,流式传输的语言并不是我想要的。下面是flume.conf文件 这我得到如下所示的鸣叫: 任何人都可以表明我需要做出改变?

    1热度

    1回答

    我试图采用使用Kafka作为源和槽作为接收器的实时数据。链接类型是HDFS。我的制作工作正常,我可以看到正在生成的数据,并且我的代理正常运行(运行命令时没有错误),但文件没有在指​​定目录中生成。 命令启动水槽剂: /usr/hdp/2.5.0.0-1245/flume/bin/flume-ng agent -c /usr/hdp/2.5.0.0-1245/flume/conf -f /usr/h

    0热度

    1回答

    我有一个移动应用程序会频繁生成事件,并有数百万用户将使用此应用程序。 捕获这些事件并将它们保存为hdfs以供日后分析的最佳方法是什么?

    0热度

    1回答

    我的客户端需要处理部署在群集上的后端REST Based App服务器的应用程序(Tomcat)服务器日志文件。 Clint希望从具有不同参数的数据中生成“访问”和“频率”报告。 我最初的计划是从App服务器日志中获取这些数据 - >使用kafka推送到Spark Streaming并处理数据 - >将这些数据存储到HIVE - >使用zeppelin找回那些处理过的集中日志数据并根据客户要求生成

    0热度

    1回答

    如何在Hadoop中创建包含仅使用Flume的网络数据包的PCAP文件?

    0热度

    1回答

    我为apache flume 1.7编写了自定义拦截器。拦截器必须为来自kafka源的所有事件设置特殊的标题,该标题与config定义的正则表达式匹配。但这是行不通的。我对java的知识太低,请帮我解决问题。我的配置/etc/flume-ng/conf/flume.conf的 部分: ######################## kafka source ###################

    0热度

    1回答

    我正在学习Kafka阶段。 使用cloudera env。 我对卡夫卡创建一个话题: /opt/bitnami/kafka/bin/kafka-topics.sh --create --zookeeper 35.195.113.105:2181 --replication-factor 1 --partitions 1 --topic airports 监制: /opt/bitnami/kaf

    0热度

    1回答

    我很困惑如何使用文件通道时的Flume数据可恢复,而内存通道不可用。 我试过一个卡夫卡水槽,当我在读水时把水槽放下,卡夫卡正确读取通道中的数据(文件)。当Flume重新启动时,流水线以可靠的方式继续提供数据。那么内存通道如何不可恢复?在这种情况下,我需要恢复通道中的数据?特别是如果Flume开始从保存的偏移量读取文件。

    0热度

    1回答

    我有一个在CDH 5.8.3中运行的flume代理程序。如果发送超过3个有效文件,它在写入hdfs时会创建多个.tmp文件。有一个拦截器可以在hdfs接收器之前将有效的xmls传递给适当的主题。此代理正在使用flafka。拦截器和卡夫卡正在正常工作。 agent.sinks.hdfs_valid.channel=valid_channel agent.sinks.hdfs_valid.type=