0
我有一个情况,文本分隔文件每隔30分钟从不同的服务器(大约10个)到达hadoop系统。处理hadoop python中的多个文件
每个文件有大约250万条记录,可能不会在同一时间到达,我正在寻找一种方法,可以每30分钟处理一次这些文件。
我的问题是:
- 如何处理在不同时间到达的文件吗?
- 我想要将数据汇总到10个文件中。是否应该将这些大文件合并或分开处理?
我想这个解决方案在python中实现,但在hadoop中使用任何工具/技术的解决方案将不胜感激。
你可以看看Apache Oozie。它能够根据数据可用性发出火花动作/作业。 – Pushkr