2012-04-24 61 views
0

我是MR和Hadoop前端的新手。 我写了一个MR在csv文件中查找失踪,它工作正常。 现在我有一个用例,我需要解析一个csv文件并使用关于类别进行编码。使用hadoop替换输入文件中的文本MR

例如: “11,ABC,XYZ,51,61,78”, “11,ADC,RYZ,41,71,38”,.............

现在必须将其替换为“1,abc,xyz,5,6,7”,“1,adc,ryz,4,7,3”,.............

这里我正在做一个10的MOD,但会有不同的MOD的情况。 数据大小以gb为单位。

我想知道如何替换输入内容的内容。 MR可以实现吗?

基本上我还没有看到任何文件处理或写入基于hadoop示例任何地方。

此时我不想去HBase或其他数据库工具。

回答

1

到位不能代替数据,因为HDFS文件只追加,不能进行编辑。
我认为最简单的方法来实现您的目标是将您的数据注册在Hive中作为外部表,并在HQL中编写您的trnasformation。
Hive是一个坐在一旁的hadoop系统,并将您的查询转换为MR Jobs。 它的用法并不像HBASE使用

+0

将致力于此并给出结果严重基础设施的决定。 – kmkswamy 2012-04-24 13:35:04

相关问题