0
Mahout的XmlInputFormat可以处理gzip数据而不会覆盖任何方法吗?我一直在试图解析被压缩的wikipedia xml数据,到目前为止一直不成功。Mahout的XmlInputFormat处理gzip压缩文件而不重写?
我听说Hadoop能够自动处理gzip文件,但我现在假设它包含在TextInputFormat类中,或者是特定于其他输入格式的,并且不是Mahout的输入格式。但也许我错过了一些东西。
注:我已经能够解析XML,但我从来没有找到明确的答案,并且很惊讶我很难找到一个。希望有人更聪明可以启发我&其他人。