apache-spark

    0热度

    1回答

    我想在spark上运行查询。我把它们都在我的.sql文件 目前我运行的方式是: spark-sql --master yarn /home/myuser/query.sql 但只要在查询完成谈到了火花SQL>内执行... 。shell提示然后作业状态不会更改成功完成它显示RUNNING由于spark-sql>外壳是活动的,所以我必须明确地做CTRL + C才能出来。 所以我基本上只想提交一个s

    0热度

    3回答

    如斯卡拉一个例子,我有一个列表,每相匹配我希望出现两次(可能不适合这种使用情况下,最好的选择条件的项目 - 但知道哪数): l.flatMap { case n if n % 2 == 0 => List(n, n) case n => List(n) } 我愿做星火类似的东西 - 在一个数据帧遍历行,如果行符合一定的条件,那么我需要在副本中进行一些修改复制的行。如何才能

    1热度

    1回答

    我正在使用本地模式上Sparklyr以下配置: conf <- spark_config() conf$`sparklyr.cores.local` <- 28 conf$`sparklyr.shell.driver-memory` <- "1000G" conf$spark.memory.fraction <- 0.9 sc <- spark_connect(master = "loc

    0热度

    2回答

    OS:红帽企业Linux服务器版本6.5 JRE:甲骨文1.8.0.144-B01 火花streaming_2.11:2.1.0 火花流,卡夫卡-0-10_2.11:2.1.0 Spark spark Kafka jar由spark-submit提交给standalone spark集群,并且运行良好几天。但是最近,我们发现没有为这个流生成新的工作,我们尝试重新启动作业,然后重新启动集群,流只停留

    3热度

    2回答

    我试图重写火花性能,如num-executors在提交应用程序火花提交如下:但是它与执行人是2的默认号码运行 spark-submit --class WC.WordCount \ --num-executors 8 \ --executor-cores 5 \ --executor-memory 3584M \ ...../<myjar>.jar \ /public/blahblahb

    0热度

    1回答

    要求:收件通过加载数据从SQL服务器创建使用火花 我用这个外部jar文件提供 https://spark-packages.org/package/werneckpaiva/spark-to-tableau 并开始火花外壳如下面一个画面提取物(.tde)一个DF spark-shell --driver-class-path D:\Spark\jdbc\sqljdbc_6.0\enu\jre7\s

    0热度

    1回答

    我有一个名为'df1'的数据框,它有X行,假设为1000.我想要做的是获得该数据框的具体子采样并保存为另一个。例如,我想从'df1'中提取400到700行并将其保存为'df2'。 我知道,一个可能的方式越来越“DF1”的内容与载体: list = df1.collect() subsample = list[400:700] df2 = sc.createDataFrame(subsample

    4热度

    2回答

    我知道我可以通过 spark-submit com.xxx.test 1 2 传递参数主功能得到论证: def main(args: Array[String]): Unit = { // 读取参数 var city = args(0) var num = args(1) ,但我想知道有没有通过命名参数一样的路径: spark-submit com.xxx.t

    0热度

    2回答

    我想从snappydata cli运行jar文件。 我只想在开始时创建sparkSession和SnappyData会话。 package io.test import org.apache.spark.sql.{SnappySession, SparkSession} object snappyTest { def main(args: Array[String]) {

    2热度

    2回答

    我想计算Spark数据框上的组分位数(使用PySpark)。无论是近似还是精确的结果都可以。我更喜欢在groupBy/agg的上下文中使用的解决方案,以便我可以将其与其他PySpark聚合函数混合使用。如果由于某种原因无法实现,则采用不同的方法也可以。 This question是相关的,但并不指示如何使用approxQuantile作为聚合函数。 我也有权访问percentile_approx