不使用文件的Hadoop自定义输入格式

我刚刚开始使用Hadoop，我正在努力弄清楚如何使用非文件的其他输入源，即读取AWS SimpleDB中的所有行，或来自另一个系统上的REST API的所有记录。在线一切只显示如何处理文件或一些选定的数据库。不使用文件的Hadoop自定义输入格式

InputFormat的API看起来相当复杂，所以我试图找出从任何非文件数据源读取数据的最快方法，然后可以使用Amazon的Elastic MapReduce（基于Hadoop）进行MapReduced。我使用JAVA编写代码。

谢谢！

来源

2013-04-23 dgildeh

'最快'的方法是使用一些数据汇总工具，如Flume或Chukwa。你可以找到一个非常好的例子，说明如何使用Twitter API here通过Flume收集Twitter数据。它展示了如何使用Flume将Twitter数据读入Hadoop集群，然后使用Hive对其进行处理。如果你需要的话，你可以写自己的MR工作。试图为这些有点事情设计一个自定义的InputFormat真的需要一些工作，我不认为你会找到很多帮助（除非有人已经做到这一点，并准备与你分享）。

HTH

来源

2013-04-23 16:11:05 Tariq

不使用文件的Hadoop自定义输入格式

回答

相关问题