distributed-cache

    2热度

    3回答

    我得到 Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: file:/path/to/my.jar, expected: hdfs://ec2-xx-xx-xx-xxx.compute-1.amazonaws.com ,如果我尝试将本地文件在Hadoop中添加分布式缓存。当文件在HDFS上时,我不会

    1热度

    1回答

    我想要一个小的文件传递给我使用GenericOptionsParser的-files标志运行的作业: $ hadoop jar MyJob.jar -conf /path/to/cluster-conf.xml -files /path/to/local-file.csv data/input data/output 据说这是为了将作业发送到我的集群和连接本地文件。 csv在需要时可供Mapp

    0热度

    1回答

    我在分布式缓存中有一个文件。基于作业输出的驱动程序类更新此文件并开始新作业。新工作需要这些更新。 我目前的做法是用新的(更新的)替换旧的分布式缓存文件。 是否有一种方法将差异(在旧文件和新文件之间)广播到需要该文件的所有任务跟踪器? 或者是这样的情况,在完成一项工作(第一个,就我而言)之后,所有特定于该工作的目录/文件都被删除,因此在此思考甚至没有意义方向?

    4热度

    2回答

    我的地图函数必须为每个输入读取一个文件。该文件根本不会改变,它仅用于阅读。分布式缓存可能会帮助我很多,但我无法找到使用它的方法。公共无效配置(JobConf conf)函数,我需要覆盖,我认为是弃用。当然,JobConf已经被弃用了。所有的DistributedCache教程都以不推荐的方式使用。我能做什么?是否有另一个配置功能,我可以覆盖? 这些都是我的地图功能的第一个行: Configura

    2热度

    1回答

    我正在映射几个XML文件并过滤每个元素的ID(从 < id> -tags)。由于我想限制工作到一定的ID集,我读了一个大文件(大约2.7亿行中的2.5亿行,每行只有一个整数作为ID)。因此,我使用DistributedCache,使用BufferedReader在setup()方法中解析文件,并将这些ID保存到HashSet中。 现在,当我开始工作时,我在执行任何地图作业前获得无数 Task at

    3热度

    1回答

    通过分布式缓存产品,我的意思是像Coherence或Hazelcast。我将以Hazelcast为例。 假设我有,保持在许多地图的状态的对象: class DataState { Map<ID, Dog> dogs = Hazelcast.getMap("dog"); Map<ID, Owner> owners = Hazelcast.getMap("owner");

    0热度

    1回答

    我是Hadoop的新手。我正在使用Hadoop 0.22。 在驱动I'used验证码: Job job = Job.getInstance(configuration); ... job.addArchiveToClassPath(new Path(JAR_DIR); ... 在地图类我必须使用添加罐子在本地CLASSPATH什么码? 更多细节 我有需要在地图和减

    0热度

    1回答

    我试图运行的GemFire客户端应用程序,但运行下面的代码时,我得到一个IllegalStateException: //clientPool is the name of the pool from the client DynamicRegionFactory.Config config = new DynamicRegionFactory.Config(null,(String)"clie

    1热度

    4回答

    我目前有两个hadoop作业,其中第二个作业需要将第一个作业的输出添加到分布式缓存。目前我手动运行它们,因此在第一个作业完成后,我将输出文件作为参数传递给第二个作业,并将其添加到缓存中。 第一份工作仅仅是一张简单的地图工作,我希望我可以在按顺序执行两个作业时运行一个命令。 任何人都可以帮我拿出第一份工作的输出放入分布式缓存的代码,以便它可以传递到第二份工作? 感谢 编辑: 这是工作1当前的驱动程序

    0热度

    1回答

    我已阅读了Apache和Yahoo在DistributedCache上的教程。但我仍然对一件事感到困惑。假设我有一个我想要复制到所有数据节点的文件。因此,我在作业Driver中使用 DistributedCache.addCacheFile(new URI(hdfsPath),job)以使文件可用。然后,我在Mapper中调用DistributedCache.getLocalCacheFiles(