使用Hadoop流式传输的线程化

我正在使用Hadoop流式传输来编写基于Python的HTML抓取器。我发现运行一个单线程的Python脚本很慢。我想将其修改为多线程版本。有没有人知道将映射器中的线程数设置为什么数目是一个好数字。我不确定群集中每个节点的规格，但我认为它将支持至少两个线程。使用Hadoop流式传输的线程化

2013-08-06 viper

线程显然适用于Hadoop流媒体，但仍然不知道每个映射器可以分离多少个线程。 – viper

我试图使用Python的线程，有全局解释器锁的问题。使用多处理模块的移植代码，内部hadoop会分配与群集中的核心一样多的映射器，因此，如果您需要加速，多处理并不是一种好的方法。如果多线程执行权可能会给予一定的加速

2013-08-15 00:01:59 viper

我还没有使用的hadoop streaming对HTML采集卡，但这里是一个post是谈论如何urllib2的工作S使用多线程（不multipleprocessing包，只需简单的多线程）。

希望对您有所帮助。

2013-10-12 15:05:07

回答