apache-spark

0热度

1回答

我想在spark上运行查询。我把它们都在我的.sql文件目前我运行的方式是： spark-sql --master yarn /home/myuser/query.sql 但只要在查询完成谈到了火花SQL>内执行... 。shell提示然后作业状态不会更改成功完成它显示RUNNING由于spark-sql>外壳是活动的，所以我必须明确地做CTRL + C才能出来。所以我基本上只想提交一个s

0热度

3回答

迭代通过在数据帧的行和变换一对多

如斯卡拉一个例子，我有一个列表，每相匹配我希望出现两次（可能不适合这种使用情况下，最好的选择条件的项目 - 但知道哪数）： l.flatMap { case n if n % 2 == 0 => List(n, n) case n => List(n) } 我愿做星火类似的东西 - 在一个数据帧遍历行，如果行符合一定的条件，那么我需要在副本中进行一些修改复制的行。如何才能

1热度

1回答

当更多的内核使用的Spark（Sparklyr）错误的许多文件打开

我正在使用本地模式上Sparklyr以下配置： conf <- spark_config() conf$`sparklyr.cores.local` <- 28 conf$`sparklyr.shell.driver-memory` <- "1000G" conf$spark.memory.fraction <- 0.9 sc <- spark_connect(master = "loc

0热度

2回答

星火流挂卡夫卡在JavaStreamingContext.start，无火花工作创造

OS：红帽企业Linux服务器版本6.5 JRE：甲骨文1.8.0.144-B01 火花streaming_2.11：2.1.0 火花流，卡夫卡-0-10_2.11：2.1.0 Spark spark Kafka jar由spark-submit提交给standalone spark集群，并且运行良好几天。但是最近，我们发现没有为这个流生成新的工作，我们尝试重新启动作业，然后重新启动集群，流只停留

3热度

2回答

为什么我无法用spark-submit覆盖num-executors选项？

我试图重写火花性能，如num-executors在提交应用程序火花提交如下：但是它与执行人是2的默认号码运行 spark-submit --class WC.WordCount \ --num-executors 8 \ --executor-cores 5 \ --executor-memory 3584M \ ...../<myjar>.jar \ /public/blahblahb

0热度

1回答

火花DF到的Tableau TDE

要求：收件通过加载数据从SQL服务器创建使用火花我用这个外部jar文件提供 https://spark-packages.org/package/werneckpaiva/spark-to-tableau 并开始火花外壳如下面一个画面提取物（.tde）一个DF spark-shell --driver-class-path D:\Spark\jdbc\sqljdbc_6.0\enu\jre7\s

0热度

1回答

如何提取数据框的具体子样本并保存在pyspark中的另一个数据框中？

我有一个名为'df1'的数据框，它有X行，假设为1000.我想要做的是获得该数据框的具体子采样并保存为另一个。例如，我想从'df1'中提取400到700行并将其保存为'df2'。我知道，一个可能的方式越来越“DF1”的内容与载体： list = df1.collect() subsample = list[400:700] df2 = sc.createDataFrame(subsample

4热度

2回答

可以用命名参数spark-submit？

我知道我可以通过 spark-submit com.xxx.test 1 2 传递参数主功能得到论证： def main(args: Array[String]): Unit = { // 读取参数 var city = args(0) var num = args(1) ，但我想知道有没有通过命名参数一样的路径： spark-submit com.xxx.t

0热度

2回答

SnappyData - snappy-job - 无法运行jar文件

我想从snappydata cli运行jar文件。我只想在开始时创建sparkSession和SnappyData会话。 package io.test import org.apache.spark.sql.{SnappySession, SparkSession} object snappyTest { def main(args: Array[String]) {

2热度

2回答

PySpark组中的中位数/分位数通过

我想计算Spark数据框上的组分位数（使用PySpark）。无论是近似还是精确的结果都可以。我更喜欢在groupBy/agg的上下文中使用的解决方案，以便我可以将其与其他PySpark聚合函数混合使用。如果由于某种原因无法实现，则采用不同的方法也可以。 This question是相关的，但并不指示如何使用approxQuantile作为聚合函数。我也有权访问percentile_approx