2017-10-16 72 views
0

Mahout的XmlInputFormat可以处理gzip数据而不会覆盖任何方法吗?我一直在试图解析被压缩的wikipedia xml数据,到目前为止一直不成功。Mahout的XmlInputFormat处理gzip压缩文件而不重写?

我听说Hadoop能够自动处理gzip文件,但我现在假设它包含在TextInputFormat类中,或者是特定于其他输入格式的,并且不是Mahout的输入格式。但也许我错过了一些东西。

注:我已经能够解析XML,但我从来没有找到明确的答案,并且很惊讶我很难找到一个。希望有人更聪明可以启发我&其他人。

回答

1

根据这{code}没有编解码器处理,没有重写我不认为这是可能的。

Incase of LineRecordReader它看起来像这样{code}并基于文件扩展名它确实应用编解码器。

您仍然可以通过使用WikipediaPageInputFormat通过CLOUD9 {here}

给一个尝试,他们有这个{codec}处理,检查它是否适合你。