databricks

    0热度

    2回答

    我想建立一个从Databricks连接到couchbase服务器4.5,然后运行N1QL查询。 下面的scala代码会返回1条记录,但在引入N1QL时会失败。任何帮助表示赞赏。 import com.couchbase.client.java.CouchbaseCluster; import scala.collection.JavaConversions._; import

    0热度

    2回答

    我现在正在做EdX的Spark课程简介。 是否有可能在我的电脑上保存来自Databricks的数据框。 我问这个问题,因为这个课程提供Databricks笔记本这可能不会在课程结束后的工作。 在笔记本数据导入使用命令: log_file_path = 'DBFS:/' + os.path.join( 'databricks-数据集', 'CS100', '实验2',“数据-001' , 'apac

    1热度

    2回答

    Spark to new;使用Databricks。真的很迷惑。 我有这个dataFrame:df。 df.count()得到龙= 5460 但是,如果我打印一行一行: df.collect.foreach(println)我只得到541行打印出来。同样,df.show(5460)只显示1017行。可能是什么原因? 一个相关的问题:我如何使用Databricks保存“df”?它保存在哪里? - 我

    0热度

    1回答

    我想在使用databricks社区版的火花集群上安装pythons库CV2,并且我要: workspace-> create - > library,作为正常的过程,然后在语言组合框中选择python,但在“PyPi Package”文本框中,我尝试了“cv2”和“opencv”,但没有运气。有人试过这个吗?你知道cv2是否可以通过这种方法安装在群集上?如果是的话,应该在texbox中使用哪个名称

    1热度

    1回答

    我正在使用Databricks,并尝试导入我的Java/Scala项目的JAR文件。 但是,导入失败此消息: Import failed with error: Could not deserialize: Unrecognized token 'Manifest': was expecting ('true', 'false' or 'null')? at [Source: [email p

    1热度

    1回答

    我在Amazon EMR上运行其公有DNS的Spark,例如23.21.40.15。 现在我在这个群集上执行我的Spark Jar &我想将我的Spark Job的输出写入其公有DNS为29.45.56.72的其他Amazon EMR HDFS。 我能够访问我自己的群集HDFS,即23.21.40.15,但我无法写入群集29.45.56.72。 我需要做什么才能让我的火花作业可以访问跨群集 HDF

    1热度

    5回答

    我想星火与亚马逊红移连接,但我得到这个错误: 我的代码如下: from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="Connect Spark with Redshift") sql_context = SQLContext(sc) sc._jsc.ha

    -2热度

    1回答

    我刚刚创建了一个7节点Spark集群,每个工作人员拥有8GB内存和4个内核。它不是一个巨大的集群,但是对于一个简单的terasort只有10GB的数据,“超出GC开销限制” 失败。 我想知道如何决定Spark集群的这些基本参数,以便随着数据大小的增长作业不会失败。遗嘱执行人的 NUM NUM分区 并行 执行内核 执行内存 如果配置不正确,而是处理死去,我不介意工作运行速度慢因为缺乏记忆是一个大红旗