databricks

0热度

2回答

我想建立一个从Databricks连接到couchbase服务器4.5，然后运行N1QL查询。下面的scala代码会返回1条记录，但在引入N1QL时会失败。任何帮助表示赞赏。 import com.couchbase.client.java.CouchbaseCluster; import scala.collection.JavaConversions._; import

0热度

2回答

如何将数据从数据框导出到文件数据块

我现在正在做EdX的Spark课程简介。是否有可能在我的电脑上保存来自Databricks的数据框。我问这个问题，因为这个课程提供Databricks笔记本这可能不会在课程结束后的工作。在笔记本数据导入使用命令： log_file_path = 'DBFS：/' + os.path.join（ 'databricks-数据集'， 'CS100'， '实验2'，“数据-001' ， 'apac

1热度

2回答

spark：dataframe.count产生的方式多于逐行打印或show（）

Spark to new;使用Databricks。真的很迷惑。我有这个dataFrame：df。 df.count()得到龙= 5460 但是，如果我打印一行一行： df.collect.foreach(println)我只得到541行打印出来。同样，df.show(5460)只显示1017行。可能是什么原因？一个相关的问题：我如何使用Databricks保存“df”？它保存在哪里？ - 我

0热度

1回答

在火花集群上安装python CV2

我想在使用databricks社区版的火花集群上安装pythons库CV2，并且我要： workspace-> create - > library，作为正常的过程，然后在语言组合框中选择python，但在“PyPi Package”文本框中，我尝试了“cv2”和“opencv”，但没有运气。有人试过这个吗？你知道cv2是否可以通过这种方法安装在群集上？如果是的话，应该在texbox中使用哪个名称

1热度

1回答

错误：导入JAR文件时无法反序列化

我正在使用Databricks，并尝试导入我的Java/Scala项目的JAR文件。但是，导入失败此消息： Import failed with error: Could not deserialize: Unrecognized token 'Manifest': was expecting ('true', 'false' or 'null')? at [Source: [email p

1热度

1回答

Apache Spark通过跨群集访问hdfs中的数据

我在Amazon EMR上运行其公有DNS的Spark，例如23.21.40.15。现在我在这个群集上执行我的Spark Jar &我想将我的Spark Job的输出写入其公有DNS为29.45.56.72的其他Amazon EMR HDFS。我能够访问我自己的群集HDFS，即23.21.40.15，但我无法写入群集29.45.56.72。我需要做什么才能让我的火花作业可以访问跨群集 HDF

1热度

5回答

星火红移与Python

我想星火与亚马逊红移连接，但我得到这个错误：我的代码如下： from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="Connect Spark with Redshift") sql_context = SQLContext(sc) sc._jsc.ha

-2热度

1回答

Databricks是否为给定的集群和数据集提供了推荐的火花参数？

我刚刚创建了一个7节点Spark集群，每个工作人员拥有8GB内存和4个内核。它不是一个巨大的集群，但是对于一个简单的terasort只有10GB的数据，“超出GC开销限制” 失败。我想知道如何决定Spark集群的这些基本参数，以便随着数据大小的增长作业不会失败。遗嘱执行人的 NUM NUM分区并行执行内核执行内存如果配置不正确，而是处理死去，我不介意工作运行速度慢因为缺乏记忆是一个大红旗