2011-06-01 60 views
1

博客文章 - http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html - 建议在Hadoop集群内调用外部系统(查询Twitter API或抓取网页)。从Hadoop集群中运行Web抓取

对于我目前正在开发的系统,有快速和慢速(批量)子系统。数据是从Twitter的API中获取的,以便快速获取个人检索结果。这可能每天有数十万(甚至数百万)的外部请求。网页的内容也被检索进一步处理 - 至少有相同规模的请求。

除了对外部源的潜在副作用(更改数据以便下一个请求会有所不同),以这种方式使用Hadoop的优势或缺点是什么?它是一种有效和有用的散装方法,和/或快速检索数据?

回答

2

优点:这是一种超级简单的方式来分配需要完成的工作。

减号:由于Hadoop从失败中恢复的方式,您需要非常小心管理什么是和不在运行(您当然可以这么做,这只是需要注意的一点)。例如,如果减少失败,那么所有为该分区提供服务的地图作业也必须重新运行。显然,这很可能是一个无缩减的工作,但对于映射器来说,这仍然是事实......如果有一半的调用运行,然后工作失败,那么它会被重新调度?

您可以使用某种高吞吐量系统来管理实际进行的呼叫或某些呼叫。但它肯定可以适当地用于此。

相关问题