2012-05-15 72 views
1

我有1000个文件需要处理。每个文件由1000个连接在一起的XML文件组成。hadoop作业来分割xml文件

我想使用Hadoop分开每个XML文件。使用Hadoop做这件事的好方法是什么?

注意:我是Hadoop的新手。我计划使用Amazon EMR。

回答

3

结账Mahout's XmlInputFormat。这是一个耻辱,这是在Mahout而不是在核心分配。

是否至少以相同格式连接的XML文件?如果是这样,您将START_TAG_KEYEND_TAG_KEY设置为每个文件的根目录。每个文件将在map中显示为一个Text记录。然后,您可以使用您最喜爱的Java XML解析器完成作业。