2013-02-26 16 views
0

朋友们,我已经在Java中实现了多线程Web爬网程序。为了使它更高效,我想将它转换成分布式架构,即3台机器。据我所搜索的主从架构是最好的。任何人都可以提供一些洞察,哪些是最好的架构,以及如何在Java中实现它?在Java的分布式体系结构中实现Web爬网程序

+0

你可能想看看[twitter风暴](http://storm-project.net/)。 – ericson 2013-02-26 16:12:23

回答

0

您可以为每个正在爬网的域计算哈希码,并使用此哈希来确定哪个节点应该爬网该域。这样,所有节点都可以并行工作,无需太多交互。

您还需要一些代码来合并抓取完成后或者定期抓取的结果。也许最好是将一些生成的档案从节点和进程拷贝到中心位置。

虚拟机云看起来像一个很好的部署平台,因为爬网不是CPU或内存密集型的。