2014-11-17 71 views
0

我使用PowerShell创建了Azure HDInsight群集。现在我需要在工作节点上安装一些定制软件,这些定制软件是我将使用Hadoop流式传输的映射器所需的。我还没有找到任何可以帮助我完成此任务的PowerShell命令。我可以准备一份定制工作来安排所有员工,但我不相信这是最好的解决方案。有更好的选择吗?如何在Azure HDInsight的工作节点上安装自定义软件?

编辑

有了AWS弹性MapReduce存在,当你创建一个集群被定义的引导作用,以安装其他软件的选项。我正在寻找类似的东西。

您可以使用引导操作来安装其他软件并更改群集上应用程序的配置。引导操作是在Amazon EMR启动群集时在群集节点上运行的脚本。它们在Hadoop启动之前以及节点开始处理数据之前运行。

来自:Create Bootstrap Actions to Install Additional Software

回答

0

我刚从拼贴我需要更新我的Azure的PS,因为最近一个新增的cmdlet Add-AzureHDInsightScriptAction加入听说过,它就是这样做的。

Customize HDInsight clusters using Script Action

+0

有了这个功能,HDInsight现在提供的支持与定制*脚本操作*安装星火,[这里](http://azure.microsoft.com/es-es/documentation/articles/hdinsight-hadoop-spark-install /)。 –

2

简短的回答是,你不知道。从缓存的角度来看,这并不理想,但您应该能够将所有作业依赖关系捆绑到映射reduce jar中,该jar通过YARN(Hadoop的一部分)为您分发。对于最终用户而言,这大致上是透明的,因为它都是通过作业提交过程处理的。

如果您需要大量作为多个作业之间的共享依赖关系,并且您不希望每次都将其复制出来,则可以将其保留在wasb:// storage上,并在类路径中引用它,但是如果您使用.NET Streaming API,则可能会导致复杂性。

+0

这是否意味着我应该在本地安装软件,从安装目录添加文件到罐子,让他们通过纱分布? – StanislawSwierc

相关问题