我想要一个外部配置文件,我将它传递给SparkJobs。假设我是从组装和配置上运行我的工作文件中对我的本地文件系统:将配置传递给Spark Job
spark-class my.assembly.jar my_application.conf
这将是巨大的,如果我可以访问配置文件在火花的工作,但其不可能的,则执行其主要方法在另一个节点上。
我一直在尝试使用spark类的--files参数,但这似乎不起作用。
类似行为(以--files)火花REPL试图用错误结束:
val inFile = sc.textFile(SparkFiles.get("conf.a"))
inFile.first()
上述假定文件conf.a已经传给火花类--files选项。
对这个问题有什么想法?如何解决这个问题?我真的很喜欢使用外部文件作为配置源。
我使用Apache的火花0.9.0
发现本教程:http://docs.sigmoidanalytics.com/index.php/Using_the_Spark_Shell - 它非常类似于我尝试设置的方式,不幸的是它不适用于我。 –