我正在开发一个情绪分析工具,它接收.txt文件中的内容,并且需要检查字典中的单词是肯定还是否定。我使用FileInputFormat.addInputPath(args [0])引用包含要分析的单词的.txt文件。我试图用字典的内容(.txt文件64KB)创建一个ArrayList,并将一个静态对象传递给Mapper类中使用的类ReadDictionary。 在eclipse上运行它是好的,但是当我尝试在Hadoop上运行时,出现一些错误。如何将字典(.txt文件64KB)的内容以有效的方式传递给映射类以在Hadoop(HDFS)上运行?Hadoop Mapper类中的参数
0
A
回答
0
在org.apache.hadoop.mapreduce.Mapper
类中,有一个setup
方法,它在初始化Mapper
时调用。
您可以保存你的字典在HDFS或本地或远程的地方,你可以通过它的控制器(路径,文件路径,或远程URL)作为上下文参数。在您的setup
impl中,您使用上下文参数实例化字典。字典对象将通过您的Mapper
的生命留在记忆中。
您可以清理,如果需要的话,在cleanup
方法。
1
您可以使用org.apache.hadoop.filecache.DistributedCache
来缓存字典文件。
DistributedCache是一个Map-Reduce框架提供的缓存文件由应用程序需要(文字,档案,罐等)的设施。
作业的所有任务都在该节点上执行之前,该框架将复制到从节点所需的文件。它的效率源自这样一个事实,即每个作业只复制一次文件,并且能够缓存从站上未归档的归档。
这是tutorial。
相关问题
- 1. Hadoop - MapReduce - Mapper输出类型
- 2. Hadoop中的Mapper和Reducer
- 3. Hadoop Mapper的采样记录
- 4. Hadoop Mapper中Mapper/Reducer的设置和清理方法MapReduce
- 5. Hadoop Mapper中的依赖注入
- 6. 如何在Hadoop中导入和使用Mapper中的类?
- 7. Mapper with multipleInput on Hadoop cluster
- 8. hadoop mapper阅读多行
- 9. Mapper类如何将SequenceFile标识为hadoop中的输入文件?
- 10. 如何在Hadoop的Mapper和Reducer中提供子类?
- 11. 如何在Scala 2.9.0中实现Hadoop Mapper?
- 12. 如何在Hadoop 1.0.4中链接mapper/reducer?
- 13. 默认/找到hadoop 1.x中的mapper和reducer的数量
- 14. 的Hadoop - 减速到Mapper端口
- 15. Mapper类型不是通用的;它不能用参数<LongWritable,Text,Text,IntWritable>参数化>
- 16. Mapper类型不是通用的,hadoop eclipse插件
- 17. Spring-Hadoop使用来自mapper类的弹簧对象
- 18. 在Hadoop Mapper中获取总输入路径数
- 19. Hadoop java mapper -copyFromLocal堆大小错误
- 20. Hadoop - 直接从Mapper写入HBase
- 21. Hadoop。如何从Mapper获得作业
- 22. Hive setup() - 类似于Mapper setup()的功能?
- 23. 如何确定Hadoop中Mapper中的最后一条记录?
- 24. 如何让每个mapper类读取hadoop中的同一个文件
- 25. 使用MultilineJSON格式的Hadoop 2.2中的Mapper任务错误
- 26. 是否可以将属性从mapper传递给hadoop中的reducer?
- 27. Mapper和Reducer是Hadoop版本2中的接口?
- 28. 在hadoop中搜索mapper程序的说明
- 29. 是一个tasktracker对应hadoop中的mapper还是reducer?
- 30. hadoop mapper程序中的空指针异常