0
我想将非结构化数据转换为结构化数据以便于数据分析,所以我想知道PIG或HIVE是否最好。如果没有其他Hadoop工具可以使用,以及如何?使用Hadoop将非结构化数据转换为结构化数据
我想将非结构化数据转换为结构化数据以便于数据分析,所以我想知道PIG或HIVE是否最好。如果没有其他Hadoop工具可以使用,以及如何?使用Hadoop将非结构化数据转换为结构化数据
根据我的经验,最简洁但静态的类型和非常灵活的是Scalding。它强大,简洁和功能强大。
Scalding是一个开源的Twitter项目,位于Cascading之上。级联位于Hadoop之上。级联的功能是进行用户定义的阶段,并将它们神奇地“级联”成尽可能少的MapReduce阶段。
本页面几乎证明了滚烫的是最好的Hadoop API:
https://github.com/twitter/scalding/wiki/Rosetta-Code
火花(不是技术上的Hadoop技术,它实际上是非常非常好),现在有一个神奇的JsonRDD - 你给它一个JSON文件,它会神奇地制定出计划。
Scalding是如何工作的?它是hadoop技术的一部分吗? – user993257
我添加了更多的细节。 @ user993257 – samthebest
欣赏您的回复,但我需要的是Hadoop技术。只是一个将非结构化数据存储为输入和输出结构化数据的示例。 – user993257