hdinsight

0热度

2回答

从Windows复制到远程HDFS的正确语法是什么？我试图将文件从我的本地机器复制到使用RStudio远程Hadoop集群 rxHadoopCopyFromLocal("C:/path/to/file.csv", "/target/on/hdfs/") 这将引发 copyFromLocal '/path/to/file.csv': no such file or directory` 注

0热度

1回答

我可以缩小azure hdinsight群集吗？

我已经创建了8个节点集群的azure hdinsight。我正在运行配置单元查询占用所有工作节点。当我检查纱线节点-list，下面列出： Node-Id Node-State Node-Http-Address No-of-Running-Containers X.X.X.X:00050 RUNNING X.X.X.X:00060 8 X.X.X.X:00050 RUNN

0热度

1回答

从MapReduce获取Azure Blob路径

在Hadoop中，我们可以获取地图输入文件路径为; Path pt = new Path(((FileSplit) context.getInputSplit()).getPath().toString()); 但我找不到任何文档如何从Azure Blob存储帐户实现此目的。有没有办法从mapreduce程序中获取Azure Blob路径？

0热度

2回答

如何将脚本操作添加到Azure HD Insight群集

我正在使用Powershell创建HD Insight Spark群集，并且希望在使用脚本操作创建群集后配置Spark和Hive配置。我想设置的配置值是 spark.yarn.maxAppAttempts=1 spark.yarn.executor.memoryOverhead = 1152 hive.merge.orcfile.stripe.level = false 请注意，我不想使用Amba

0热度

1回答

如何在HD Insights（YARN）上永久运行火花流作业？

我正在用IntelliJ开发在HD Insights集群（基于YARN）中运行的Spark应用程序。目前，我直接从IntelliJ通过Azure HD Insights插件提交作业。这反过来使用Livy API远程提交作业。当我与开发的代码完成，我想流作业要永远运行。目前，如果作业失败五次，程序将停止并且不会自行重启。有什么方法可以改变这种行为吗？或者大多数人使用什么解决方案使失败后的火花重启？

1热度

1回答

HdInsight Azure DW Polybase到蜂巢表（ORC）与日期分区失败

我想创建一个存储为ORC（HD洞察数据湖）并按日期分区的Hive表的Azure数据仓库中的polybase外部表当我查询外部表时，它没有任何适当的错误消息在SQL Server中失败。当我不使用分区我能够使用外部表访问配置单元ORC表，但与分区我越来越低错误没有任何适当的错误消息。错误：消息106000，级别16，状态1，行33指数：23，大小：23 详细信息：蜂巢表：创建外部表DL_C

1热度

2回答

与数组作为参数

我想用户拷贝循环功能在Azure的ARM模板下面Azure的ARM模板的资源块我 { "$schema": "https://schema.management.azure.com/schemas/2015-01-01/deploymentTemplate.json#", "contentVersion": "1.0.0.0", "parameters": { "resourceGroup

0热度

1回答

使用IntelliJ IDEA的失败

提交hdinsight星火工作，当我使用的IntelliJ IDEA社区提交hdinsight星火工作错误： Failed to submit application to spark cluster. Exception : Forbidden. Attached Azure DataLake Store is not supported in Automated login model.

0热度

1回答

如何通过Powershell在HDInsight上提交Spark作业？

有没有办法通过Powershell在HDInsight上提交Spark作业？我知道它可以通过Azure Data Factory中的活动来完成，但是有没有办法将Python脚本提交到Powershell cmdlet的pinspark HDInsight？

0热度

2回答

在使用HDI 3.6的集群上，Spark总是使用旧版本1.6.3版本

我有一个HDInsight集群正在运行3.6，它根据docs只捆绑了Spark 2.1.0。显然李维一直没有整合这个版本并试图卷曲李维（像火花的作业Azure的教程文档建议）导致HTTP 502 BAD GATEWAY响应 - 所以我试图手动提交火花的工作。然而，当我ssh到主节点，并使用我立刻注意到包装脚本打印如下： SPARK_MAJOR_VERSION is set to 1, us