1
似乎它在Hadoop
(reference)支持,但我不知道如何使用它。hadoop:支持Map Reduce作业的多个输出
我想:
a.) Map - Read a huge XML file and load the relevant data and pass on to reduce
b.) Reduce - write two .sql files for different tables
为什么我选择的map/reduce是因为我要为居住在ondisk XML 100k(may be many more)
文件做到这一点。欢迎任何更好的建议
任何资源/教程解释如何使用此赞赏。
我使用Python
和想学习如何做到这一点使用streaming
谢谢
那么......你的问题是什么?你可以说得更详细点吗? –
如何使用流式API为地图/缩减作业编写多个输出 – daydreamer