mapreduce和任何其他hadoop技术(HBase,Hive,pig等)是否适用于您有多个输入文件并且需要在不同数据源之间比较数据的情况。使用Hadoop处理来自多个数据源的数据
在过去,我使用Hadoop和Pig编写了一些mapreduce作业。然而,这些任务非常简单,因为它们只涉及操纵单个数据集。我们现在的要求规定,我们从多个来源读取数据,并对另一个数据源上的各种数据元素进行比较。然后我们报告差异。我们正在使用的数据集在1000万到6000万条记录的范围内,迄今为止我们还没有设法使这些工作足够快。
是否有使用mapreduce来解决这些问题的情况,还是我走错了路线。
任何建议,非常感谢。
是集预排序和分配?如何比较数据集(记录中的关键字,还是更复杂的)? –
数据集来自第三方,所以我无法保证排序顺序。基本上,我必须将这些来源的地址字段与 匹配,这是我们托管的“主”来源,并根据匹配我们执行某些操作。地址字段的比较操作涉及相当复杂的字符串匹配逻辑 。 – swedstar