2012-06-17 19 views
0

我要去写计划对约10M的网页上运行一个多线程的履带,以速度事情了,我需要获取约10〜不同的页面同时性。多线程爬行器为每个线程使用不同的代理,正确的方式?

每个爬虫线程将使用不同的代理并将结果推送到队列中,另一方面,我将有更多的工作人员从队列中获取结果,解析并将其插入到D B。

那是正确的做法?我会在保存队列中太多结果时遇到问题吗?我应该担心锁吗? (使用队列模块)。 哪个HTTP库最适合我的需求? (httplib2的/的urllib2)。

创建每个线程的时候,我应该通过请求对象的新实例,以每个线程或者我应该将请求对象,并在线程中使用它的“GETPAGE”功能?

谢谢。

回答