2012-01-28 36 views
1

我是PIG新手,对它不了解太多。如何解析PIG中的文本?要读取字段的值,猪中存在位置参数的概念,例如$ 0对应于第一个字段,类似地,是否有像可以读取整行的位置参数那样的任何特性。什么是RADOOP,在哪里可以使用它?使用PIG文本解析

+0

这是两个问题吗? – 2012-01-29 18:36:24

+0

是的,它是逸岸三个问题 – 2012-01-30 08:26:17

回答

0

对于文本解析,首先您可以阅读PIG和wordcount示例的教程。

下面给出链接:

  1. Pig tutorial

  2. Wordcount example - 阅读来自这个链接的单词计数示例,并涉及在给定的教程的命令。

0

我不确定你在问什么。猪有许多功能,例如TOKENIZE和正则表达式匹配/提取UDF,这些都可能有帮助。当然,您也可以使用Java或Python编写任何您喜欢的文本处理代码,然后调用它。

+0

我如何可以调用Java或Python代码猪 – 2012-01-30 08:59:52

0

我想你是不是需要标记整行,只要把整行作为一个字段,对不对?

然后,我想你可以使用PigStorage(“\ n”),使用“\ n”作为字段分隔符整行当作一个字段。

我认为你的“RADOOP”是指hadoop,对吧?作为第一步,你可以在本地模式下运行猪,这意味着你不需要安装hadoop。

+0

我想访问特定的行假设10行我怎么会做,我问that.No我只能意味着RADOOP ... – 2012-01-30 08:34:11

1

你的问题表明您想拥有某种与您的数据交互模式,但这一数据的体积较大。

RADOOP为R和Hadoop的结合,它应该能够为您提供一个GUI通过一些R统计分析使用Hadoop规模加工来运行你的大数据。

与此同时,我建议您看看Google-Refine(http://code.google.com/p/google-refine/),您可以轻松下载并运行您的数据证据流程。

随着谷歌,瑞风,你可以轻松地分析你的数据,使用内置的文本,日期和数字功能。您还可以使用Jython进一步增强所需的功能。它可以处理大规模的数据采样并使用内置Facets调查其功能。 See example of Facets

R也是用于数据的证据一个伟大的工具,具有良好的抽样等统计分析库。但其接口基于命令行,针对高级统计师和分析师,而不是针对普通用户。