flume

1热度

2回答

我试图通过水槽从kafka hdfs中的数据。 kafka_producer每10秒发送一条消息。我会收集所有消息在hdfs上的一个文件。这是水槽，我使用的配置，但是它存储在HDFS许多文件（一个用于消息）： agent1.sources.kafka-source.type = org.apache.flume.source.kafka.KafkaSource agent1.sources.k

1热度

1回答

使用Flume获取tweets时发出的问题

我可以使用flume获取tweet，但是，流式传输的语言并不是我想要的。下面是flume.conf文件这我得到如下所示的鸣叫：任何人都可以表明我需要做出改变？

1热度

1回答

FlumeData文件未在HDFS接收器中创建

我试图采用使用Kafka作为源和槽作为接收器的实时数据。链接类型是HDFS。我的制作工作正常，我可以看到正在生成的数据，并且我的代理正常运行（运行命令时没有错误），但文件没有在指定目录中生成。命令启动水槽剂： /usr/hdp/2.5.0.0-1245/flume/bin/flume-ng agent -c /usr/hdp/2.5.0.0-1245/flume/conf -f /usr/h

0热度

1回答

将移动事件数据提取到hdfs中

我有一个移动应用程序会频繁生成事件，并有数百万用户将使用此应用程序。捕获这些事件并将它们保存为hdfs以供日后分析的最佳方法是什么？

0热度

1回答

应用程序服务器日志进程

我的客户端需要处理部署在群集上的后端REST Based App服务器的应用程序（Tomcat）服务器日志文件。 Clint希望从具有不同参数的数据中生成“访问”和“频率”报告。我最初的计划是从App服务器日志中获取这些数据 - >使用kafka推送到Spark Streaming并处理数据 - >将这些数据存储到HIVE - >使用zeppelin找回那些处理过的集中日志数据并根据客户要求生成

0热度

1回答

如何在不使用Wireshark的情况下使用Flume捕获Hadoop中的网络流量？

如何在Hadoop中创建包含仅使用Flume的网络数据包的PCAP文件？

0热度

1回答

Apache Flume拦截器 - 无法实例化Builder

我为apache flume 1.7编写了自定义拦截器。拦截器必须为来自kafka源的所有事件设置特殊的标题，该标题与config定义的正则表达式匹配。但这是行不通的。我对java的知识太低，请帮我解决问题。我的配置/etc/flume-ng/conf/flume.conf的部分： ######################## kafka source ###################

0热度

1回答

如何通过Spark流和Apache水槽将Kafka主题加载到HDFS

我正在学习Kafka阶段。使用cloudera env。我对卡夫卡创建一个话题： /opt/bitnami/kafka/bin/kafka-topics.sh --create --zookeeper 35.195.113.105:2181 --replication-factor 1 --partitions 1 --topic airports 监制： /opt/bitnami/kaf

0热度

1回答

Flume内存通道何时无法恢复，为什么？

我很困惑如何使用文件通道时的Flume数据可恢复，而内存通道不可用。我试过一个卡夫卡水槽，当我在读水时把水槽放下，卡夫卡正确读取通道中的数据（文件）。当Flume重新启动时，流水线以可靠的方式继续提供数据。那么内存通道如何不可恢复？在这种情况下，我需要恢复通道中的数据？特别是如果Flume开始从保存的偏移量读取文件。

0热度

1回答

连续发送数据时生成多个.tmp文件的Flume代理程序

我有一个在CDH 5.8.3中运行的flume代理程序。如果发送超过3个有效文件，它在写入hdfs时会创建多个.tmp文件。有一个拦截器可以在hdfs接收器之前将有效的xmls传递给适当的主题。此代理正在使用flafka。拦截器和卡夫卡正在正常工作。 agent.sinks.hdfs_valid.channel=valid_channel agent.sinks.hdfs_valid.type=