2013-05-06 28 views
0

我有2个存储在AWS S3中的制表符分隔的数据集。 我正在尝试编写一个EMR作业,它将基于一个公用密钥(一组字段值)连接这两个数据集。 我目前的版本填充2个列表并逐行比较它们;输出具有公共密钥的行。 我一直在Python中编写,但似乎无法找出通过stdin带来2个文件背后的逻辑,并将每个行与另一个进行比较,以便加入这两个数据集。 我发现的大部分文档都是用Java编写的。 我正在使用亚马逊的EMR来运行我的所有工作。 任何帮助,不胜感激。使用EMR加入数据集

谢谢

+0

你需要用Python语言编写的代码? – greedybuddha 2013-05-06 23:13:50

+0

优选是。我目前正在寻找猪作为替代品。 – Zihs 2013-05-07 12:56:51

回答