我正在使用一个第三方服务,它聚合数据并公开REST API以访问它。将数据从API加载到HBase
我正在尝试获取这些数据并将其加载到本地HBase群集中。我创建了一个Java应用程序,用于从第三方服务中提取数据,使用HBase客户端API对其进行处理并将其加载到我们的群集中。对于这个应用程序,我必须手动运行它,也不知道有多少HBase客户端API能够有效地加载批量数据。
我遇到了Sqoop和Cascading-dbmigrate从RDBMS进行批量传输。我的问题是:是否有任何类似的工具从REST API进行批量数据传输?同样,在一段时间内同步数据。
感谢 ArunDhaJ http://arundhaj.com
为了好奇,那么人们如何设法将Facebook数据(或任何类似的服务,如twitter,reddit)放在群集上并对数据进行分析?因为这些服务也只公开API。 – ArunDhaJ
尤其不了解Facebook,但在使用外部数据源时,设计ETL过程以提取此数据并将其加载到群集中,然后根据需要执行任何操作都是非常标准的。我一直在与许多不同的消息来源一起工作,虽然有时候获取可能是瓶颈,但它仍然是一个必要的步骤。 –