Q

多线程爬行器为每个线程使用不同的代理，正确的方式？

2012-06-17 19 views 0 likes

0

我要去写计划对约10M的网页上运行一个多线程的履带，以速度事情了，我需要获取约10〜不同的页面同时性。多线程爬行器为每个线程使用不同的代理，正确的方式？

每个爬虫线程将使用不同的代理并将结果推送到队列中，另一方面，我将有更多的工作人员从队列中获取结果，解析并将其插入到D B。

那是正确的做法？我会在保存队列中太多结果时遇到问题吗？我应该担心锁吗？（使用队列模块）。哪个HTTP库最适合我的需求？（httplib2的/的urllib2）。

创建每个线程的时候，我应该通过请求对象的新实例，以每个线程或者我应该将请求对象，并在线程中使用它的“GETPAGE”功能？

谢谢。

2012-06-17 YSY

A

回答

0

尝试requests库（documantation part for proxies）

2012-06-17 13:25:58 astynax

0

Scrapy的路要走。

以下是描述如何设置代理中间件以使用多个代理的页面：http://mahmoud.abdel-fattah.net/2012/04/16/using-scrapy-with-different-many-proxies/

2012-06-17 14:46:11 Acorn

相关问题