1
我有1000个文件需要处理。每个文件由1000个连接在一起的XML文件组成。hadoop作业来分割xml文件
我想使用Hadoop分开每个XML文件。使用Hadoop做这件事的好方法是什么?
注意:我是Hadoop的新手。我计划使用Amazon EMR。
我有1000个文件需要处理。每个文件由1000个连接在一起的XML文件组成。hadoop作业来分割xml文件
我想使用Hadoop分开每个XML文件。使用Hadoop做这件事的好方法是什么?
注意:我是Hadoop的新手。我计划使用Amazon EMR。
结账Mahout's XmlInputFormat。这是一个耻辱,这是在Mahout而不是在核心分配。
是否至少以相同格式连接的XML文件?如果是这样,您将START_TAG_KEY
和END_TAG_KEY
设置为每个文件的根目录。每个文件将在map
中显示为一个Text
记录。然后,您可以使用您最喜爱的Java XML解析器完成作业。