我知道我们可以从普通java应用程序调用map-reduce作业。现在在我的情况下,map-reduce作业必须处理hdfs上的文件以及其他文件系统上的文件。我们可以在hadoop中使用hdfs上的文件同时访问其他文件系统中的文件。那可能吗 ?访问其他文件系统中的文件以及hadoop mapreduce应用程序中的hdfs文件
所以基本上我的意图是我有一个大文件,我想将它放在HDFS中用于并行计算,然后将此文件的块与其他一些文件进行比较(我不想将它们放在HDFS中,因为它们是需要为全长文件在一次访问。
是的,这是可能的。我猜,你的非hdfs文件必须可以从每个任务跟踪器中获得。像网络共享一样。 – rretzbach
你能让我知道我们该怎么做,我用Google搜索了一下,我发现没有例子可以处理hadoop中的非hdfs文件。非常感谢你的回复 – user1707141
如果你担心文件分裂,你应该把它们放在HDFS上,但是使用[FileInputFormat]的子类(http://hadoop.apache.org/docs/current/api/ org/apache/hadoop/mapred/FileInputFormat.html),它们在启动MapReduce作业时不分割它们。 –