2013-08-06 23 views
0

我正在使用Hadoop流式传输来编写基于Python的HTML抓取器。我发现运行一个单线程的Python脚本很慢。我想将其修改为多线程版本。有没有人知道将映射器中的线程数设置为什么数目是一个好数字。我不确定群集中每个节点的规格,但我认为它将支持至少两个线程。使用Hadoop流式传输的线程化

+0

线程显然适用于Hadoop流媒体,但仍然不知道每个映射器可以分离多少个线程。 – viper

回答

0

我试图使用Python的线程,有全局解释器锁的问题。使用多处理模块的移植代码,内部hadoop会分配与群集中的核心一样多的映射器,因此,如果您需要加速,多处理并不是一种好的方法。如果多线程执行权可能会给予一定的加速

0

我还没有使用的hadoop streaming对HTML采集卡,但这里是一个post是谈论如何urllib2的工作S使用多线程(不multipleprocessing包,只需简单的多线程)。

希望对您有所帮助。