使用PIG文本解析

我是PIG新手，对它不了解太多。如何解析PIG中的文本？要读取字段的值，猪中存在位置参数的概念，例如$ 0对应于第一个字段，类似地，是否有像可以读取整行的位置参数那样的任何特性。什么是RADOOP，在哪里可以使用它？使用PIG文本解析

这是两个问题吗？ – 2012-01-29 18:36:24

是的，它是逸岸三个问题 – 2012-01-30 08:26:17

对于文本解析，首先您可以阅读PIG和wordcount示例的教程。

下面给出链接：

2012-01-30 05:22:02 Debaditya

我不确定你在问什么。猪有许多功能，例如TOKENIZE和正则表达式匹配/提取UDF，这些都可能有帮助。当然，您也可以使用Java或Python编写任何您喜欢的文本处理代码，然后调用它。

2012-01-29 22:40:27 SquareCog

我如何可以调用Java或Python代码猪 – 2012-01-30 08:59:52

我想你是不是需要标记整行，只要把整行作为一个字段，对不对？

然后，我想你可以使用PigStorage（“\ n”），使用“\ n”作为字段分隔符整行当作一个字段。

我认为你的“RADOOP”是指hadoop，对吧？作为第一步，你可以在本地模式下运行猪，这意味着你不需要安装hadoop。

2012-01-30 07:54:55 zjffdu

我想访问特定的行假设10行我怎么会做，我问that.No我只能意味着RADOOP ... – 2012-01-30 08:34:11

你的问题表明您想拥有某种与您的数据交互模式，但这一数据的体积较大。

RADOOP为R和Hadoop的结合，它应该能够为您提供一个GUI通过一些R统计分析使用Hadoop规模加工来运行你的大数据。

与此同时，我建议您看看Google-Refine（http://code.google.com/p/google-refine/），您可以轻松下载并运行您的数据证据流程。

随着谷歌，瑞风，你可以轻松地分析你的数据，使用内置的文本，日期和数字功能。您还可以使用Jython进一步增强所需的功能。它可以处理大规模的数据采样并使用内置Facets调查其功能。 See example of Facets

R也是用于数据的证据一个伟大的工具，具有良好的抽样等统计分析库。但其接口基于命令行，针对高级统计师和分析师，而不是针对普通用户。

2012-01-31 14:32:49 Guy

回答