distributed-cache

2热度

3回答

我得到 Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: file:/path/to/my.jar, expected: hdfs://ec2-xx-xx-xx-xxx.compute-1.amazonaws.com ，如果我尝试将本地文件在Hadoop中添加分布式缓存。当文件在HDFS上时，我不会

1热度

1回答

如何在Hadoop Map/Reduce作业中访问DistributedCache？

我想要一个小的文件传递给我使用GenericOptionsParser的-files标志运行的作业： $ hadoop jar MyJob.jar -conf /path/to/cluster-conf.xml -files /path/to/local-file.csv data/input data/output 据说这是为了将作业发送到我的集群和连接本地文件。 csv在需要时可供Mapp

0热度

1回答

Hadoop分布式缓存 - 修改文件

我在分布式缓存中有一个文件。基于作业输出的驱动程序类更新此文件并开始新作业。新工作需要这些更新。我目前的做法是用新的（更新的）替换旧的分布式缓存文件。是否有一种方法将差异（在旧文件和新文件之间）广播到需要该文件的所有任务跟踪器？或者是这样的情况，在完成一项工作（第一个，就我而言）之后，所有特定于该工作的目录/文件都被删除，因此在此思考甚至没有意义方向？

4热度

2回答

所有地图任务的Hadoop缓存文件

我的地图函数必须为每个输入读取一个文件。该文件根本不会改变，它仅用于阅读。分布式缓存可能会帮助我很多，但我无法找到使用它的方法。公共无效配置（JobConf conf）函数，我需要覆盖，我认为是弃用。当然，JobConf已经被弃用了。所有的DistributedCache教程都以不推荐的方式使用。我能做什么？是否有另一个配置功能，我可以覆盖？这些都是我的地图功能的第一个行： Configura

2热度

1回答

Hadoop DistributedCache无法在hadoop作业中报告状态

我正在映射几个XML文件并过滤每个元素的ID（从 < id> -tags）。由于我想限制工作到一定的ID集，我读了一个大文件（大约2.7亿行中的2.5亿行，每行只有一个整数作为ID）。因此，我使用DistributedCache，使用BufferedReader在setup（）方法中解析文件，并将这些ID保存到HashSet中。现在，当我开始工作时，我在执行任何地图作业前获得无数 Task at

3热度

1回答

如何传送在分布式缓存产品中的多个分布式映射上运行的事务

通过分布式缓存产品，我的意思是像Coherence或Hazelcast。我将以Hazelcast为例。假设我有，保持在许多地图的状态的对象： class DataState { Map<ID, Dog> dogs = Hazelcast.getMap("dog"); Map<ID, Owner> owners = Hazelcast.getMap("owner");

0热度

1回答

Hadoop分布式缓存不起作用

我是Hadoop的新手。我正在使用Hadoop 0.22。在驱动I'used验证码： Job job = Job.getInstance(configuration); ... job.addArchiveToClassPath(new Path(JAR_DIR); ... 在地图类我必须使用添加罐子在本地CLASSPATH什么码？更多细节我有需要在地图和减

0热度

1回答

的GemFire - 高速缓存IllegalStateException异常创建

我试图运行的GemFire客户端应用程序，但运行下面的代码时，我得到一个IllegalStateException： //clientPool is the name of the pool from the client DynamicRegionFactory.Config config = new DynamicRegionFactory.Config(null,(String)"clie

1热度

4回答

在一个驱动程序中运行相关的hadoop作业

我目前有两个hadoop作业，其中第二个作业需要将第一个作业的输出添加到分布式缓存。目前我手动运行它们，因此在第一个作业完成后，我将输出文件作为参数传递给第二个作业，并将其添加到缓存中。第一份工作仅仅是一张简单的地图工作，我希望我可以在按顺序执行两个作业时运行一个命令。任何人都可以帮我拿出第一份工作的输出放入分布式缓存的代码，以便它可以传递到第二份工作？感谢编辑：这是工作1当前的驱动程序

0热度

1回答

Hadoop DistributedCache

我已阅读了Apache和Yahoo在DistributedCache上的教程。但我仍然对一件事感到困惑。假设我有一个我想要复制到所有数据节点的文件。因此，我在作业Driver中使用 DistributedCache.addCacheFile(new URI(hdfsPath),job)以使文件可用。然后，我在Mapper中调用DistributedCache.getLocalCacheFiles(