从Hadoop集群中运行Web抓取

博客文章 - http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html - 建议在Hadoop集群内调用外部系统（查询Twitter API或抓取网页）。从Hadoop集群中运行Web抓取

对于我目前正在开发的系统，有快速和慢速（批量）子系统。数据是从Twitter的API中获取的，以便快速获取个人检索结果。这可能每天有数十万（甚至数百万）的外部请求。网页的内容也被检索进一步处理 - 至少有相同规模的请求。

除了对外部源的潜在副作用（更改数据以便下一个请求会有所不同），以这种方式使用Hadoop的优势或缺点是什么？它是一种有效和有用的散装方法，和/或快速检索数据？

来源

2011-06-01 Alister Bulman

优点：这是一种超级简单的方式来分配需要完成的工作。

减号：由于Hadoop从失败中恢复的方式，您需要非常小心管理什么是和不在运行（您当然可以这么做，这只是需要注意的一点）。例如，如果减少失败，那么所有为该分区提供服务的地图作业也必须重新运行。显然，这很可能是一个无缩减的工作，但对于映射器来说，这仍然是事实......如果有一半的调用运行，然后工作失败，那么它会被重新调度？

您可以使用某种高吞吐量系统来管理实际进行的呼叫或某些呼叫。但它肯定可以适当地用于此。

来源

2011-06-01 18:50:09

从Hadoop集群中运行Web抓取

回答

相关问题