hadoop作业来分割xml文件

我有1000个文件需要处理。每个文件由1000个连接在一起的XML文件组成。hadoop作业来分割xml文件

我想使用Hadoop分开每个XML文件。使用Hadoop做这件事的好方法是什么？

注意：我是Hadoop的新手。我计划使用Amazon EMR。

2012-05-15 jldupont

结账Mahout's XmlInputFormat。这是一个耻辱，这是在Mahout而不是在核心分配。

是否至少以相同格式连接的XML文件？如果是这样，您将START_TAG_KEY和END_TAG_KEY设置为每个文件的根目录。每个文件将在map中显示为一个Text记录。然后，您可以使用您最喜爱的Java XML解析器完成作业。

2012-05-15 01:58:13

回答