当我试图运行使用HDFS文件系统正常工作时,我提供以下特性纱模式火花应用。如何配置SparkContext为启用HA群集
sparkConf.set("spark.hadoop.yarn.resourcemanager.hostname",resourcemanagerHostname);
sparkConf.set("spark.hadoop.yarn.resourcemanager.address",resourcemanagerAddress);
sparkConf.set("spark.yarn.stagingDir",stagingDirectory);
但与此有关的问题是:
- 由于我的HDFS启用了NamdeNode HA当我提供spark.yarn.stagingDir HDFS的公共URL,它不会工作
例如hdfs://hdcluster/user/tmp/
给人一个错误,指出:
有未知的主机hdcluster
但是,当我把它的URL为hdfs://<ActiveNameNode>/user/tmp/
它工作正常,但我们不提前,这将是积极的怎么这么知道我解决这个问题?
而且几件事情我已经注意到有SparkContext需要Hadoop的配置,但SparkConfiguration类不会有任何的方法来接受Hadoop配置。
- 如何在资源管理器在运行HA我提供的资源管理器的地址?
请妥善编辑你的问题。把代码放在'像这样'的部分。没有必要写感谢和姓名到底。 – surajsn