在Apache Samza中寻找从本地系统或HDFS读取文件的方法 然后将过滤器,聚合,条件,排序,分组应用到批处理数据。 请提供一些帮助。如何从本地文件系统和hdfs系统读取Apache Samza中的文件
1
A
回答
0
您应该为每个要使用的数据源创建一个系统。例如,要从文件中读取,您应该创建一个带有FileReaderSystemFactory的系统 - 对于HDFS,使用HdfsSystemFactory创建一个系统。然后,您可以使用常规进程回调或窗口来处理您的数据。
0
你可以使用标准的卡夫卡制片人喂养你的萨姆扎工作。为了让你更容易。您可以使用Logstash,你需要创建Logstash脚本,您可以指定:
- 输入本地文件或HDFS
- 过滤器(可选),在这里你可以做基本的过滤,聚合等
- 卡夫卡输出,特定主题要养活
输入
我用这种方法从本地文件
养活我samza工作另一种方法可以使用卡夫卡连接 http://docs.confluent.io/2.0.0/connect/
相关问题
- 1. 如何将文件从本地文件系统复制到HDFS文件系统?
- 2. 如何将文件从HDFS复制到本地文件系统
- 3. 从HDFS复制文件到本地文件系统用JAVA
- 4. HDFS vs LFS - Hadoop Dist。文件系统建立在本地文件系统上?
- 5. Dojo使用dojo.xhrGet从本地文件系统读取json文件
- 6. UNIX系统和Windows系统中读取.CSV文件的差异
- 7. 如何在HDFS API中指定本地文件系统?
- 8. 无法创建本地文件系统如何写入本地文件系统
- 9. 文件系统API - 从本地驱动器上传到本地文件系统
- 10. jsdom本地文件系统
- 11. 将Spark工作写入本地文件系统还是从本地文件系统读取?
- 12. 如何从本地文件系统自动将zip文件复制到HDFS
- 13. 本地文件系统中的Apache httpclient GET文件?
- 14. 使用html5文件系统api读取本地文件/目录
- 15. 如何从文件系统读取大量的XML文件
- 16. 从ext3文件系统读取块?
- 17. 从文件系统读取xml
- 18. 无法从本地文件系统复制到HDFS
- 19. 将内容从HDFS复制到本地文件系统
- 20. 将文件/块从HDFS复制到从节点的本地文件系统
- 21. 如何让电报机器人读取本地文件系统
- 22. 使用JS和/或HTML5从本地文件系统读取文件
- 23. 如何从Openshift文件系统写入/读取文件?
- 24. 如何从系统文件夹读取文件
- 25. 当容器运行时,Docker从本地系统读取文件
- 26. 检索从本地文件系统
- 27. 本地文件系统访问和PHP5
- 28. 如何从本地文件系统上传文件?
- 29. 从文件系统
- 30. 用于HDFS文件系统的网址