博客文章 - http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html - 建议在Hadoop集群内调用外部系统(查询Twitter API或抓取网页)。从Hadoop集群中运行Web抓取
对于我目前正在开发的系统,有快速和慢速(批量)子系统。数据是从Twitter的API中获取的,以便快速获取个人检索结果。这可能每天有数十万(甚至数百万)的外部请求。网页的内容也被检索进一步处理 - 至少有相同规模的请求。
除了对外部源的潜在副作用(更改数据以便下一个请求会有所不同),以这种方式使用Hadoop的优势或缺点是什么?它是一种有效和有用的散装方法,和/或快速检索数据?