我正在使用Hadoop流式传输来编写基于Python的HTML抓取器。我发现运行一个单线程的Python脚本很慢。我想将其修改为多线程版本。有没有人知道将映射器中的线程数设置为什么数目是一个好数字。我不确定群集中每个节点的规格,但我认为它将支持至少两个线程。使用Hadoop流式传输的线程化
0
A
回答
0
我试图使用Python的线程,有全局解释器锁的问题。使用多处理模块的移植代码,内部hadoop会分配与群集中的核心一样多的映射器,因此,如果您需要加速,多处理并不是一种好的方法。如果多线程执行权可能会给予一定的加速
0
我还没有使用的hadoop streaming对HTML采集卡,但这里是一个post是谈论如何urllib2的工作S使用多线程(不multipleprocessing包,只需简单的多线程)。
希望对您有所帮助。
相关问题
- 1. 使用Python和Python子流程进行Hadoop流式传输
- 2. Hadoop流式传输KeyFieldBasedPartitioner
- 3. Hadoop使用mongo-hadoop连接器流式传输失败
- 4. R的Hadoop流式传输失败
- 5. .NET中的Hadoop流式传输
- 6. hadoop流式传输的命令行
- 7. Hadoop流式传输权限问题
- 8. Hadoop缓冲vs流式传输
- 9. Hadoop流式传输和AMAZON EMR
- 10. Hadoop流式传输失败,java.io.FileNotFoundException
- 11. Hadoop mapreduce从HBase流式传输
- 12. hadoop流式传输错误,mapreduce与python
- 13. 在流式传输hadoop程序中获取输入文件名
- 14. 带有流水线的结构化流式传输
- 15. 结构化流式传输将实验性文件写入hadoop
- 16. 使用Solr远程流式传输
- 17. Hadoop使用私有Python解释器流式传输
- 18. 使用TextInputFormat和Python进行Hadoop流式传输 - 记录行号
- 19. 在bash脚本中使用expr时hadoop流式传输错误
- 20. hadoop mapreduce流式传输中的多文件输出
- 21. 使用C#和Mono进行Hadoop流式传输:IdentityMapper使用不正确
- 22. 如何在流式传输URL时应用线程。
- 23. 使用HAML的Rails HTTP流式传输
- 24. 使用Spark的Twitter流式传输
- 25. 在线音乐流式传输Firebase Android
- 26. Hadoop输出和流水线写入
- 27. apache spark结构化流式传输
- 28. 监控结构化流式传输
- 29. MQTT结构化流式传输
- 30. 带有hadoop流式传输的BWA工具
线程显然适用于Hadoop流媒体,但仍然不知道每个映射器可以分离多少个线程。 – viper