apache-spark

    -2热度

    3回答

    我看到一个常见的设置来使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g开始pyspark,但如何驾驶员记忆从执行性记忆有什么不同?您能否解释一下驱动程序是什么以及如何在此设置影响pyspark工作流程/性能? 谢谢!

    -4热度

    1回答

    你好,我有原始数据,比如1我想添加一个以80为中断点的列作为合格等级,结果应该是2。我正在使用sqlContext.read.format(“com.databricks.spark.csv”)来读取原始数据。任何帮助!

    0热度

    1回答

    我的输入包含大量的小ORC文件,我希望在一天的每一天结束,我想将数据拆分为100MB的块。 我的输入和输出都是S3和环境中使用的电子病历, 蜂巢参数,正在设置, set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

    5热度

    1回答

    它看起来像这样就会因错误 df .write() .option("mode", "DROPMALFORMED") .option("compression", "snappy") .mode("overwrite") .bucketBy(32,"column").sortBy("column") .parque

    -1热度

    1回答

    假设我试图删除这个正则表达式“RT \ s * @ USER \ w \ w {8}:\ s *” 并且我想在我的RDD中删除这种形式的正则表达式。 我现在RDD是: text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和这里就是我试图删除正则表达式的一部分。 我试着做下面的RDD转换来摆脱每一个匹配这个

    0热度

    2回答

    我是Scala/spark的新手。我正在研究Scala/Spark应用程序,该应用程序从配置单元表中选择几列,然后将其转换为可变映射,其中第一列是键,第二列是值。例如: +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 将被转换为Scala.mutab

    0热度

    2回答

    如何计算df列中使用Spark分区的字符串出现次数id? 例如在列查找值"test"的df 在SQL "name"是: def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

    -6热度

    1回答

    在尝试使用Scala访问Spark的Dataframe操作时, 返回字符文字错误。 [ERROR] /home/cloudera/sharedCloudera-vm/hw3-skeleton/Q2/src/main/scala/edu/gatech/cse6242/Q2.scala:25: error: unclosed character literal [INFO] val filterNod

    1热度

    1回答

    当我使用JanusGraph 0.2.0文档的第35章中的示例时,它是可以的。但是当我将conf/hadoop-graph/hadoop-load.properties中的spark.master从local [*]更改为spark://192.168.63.105:7077时,我收到了一些警告信息。 JanusGraph 0.2.0文档的第35章有一个注释: 本章中的示例基于在本地模式下运行Sp

    0热度

    1回答

    我试图从数据框的列中删除特殊字符(?)。 我的数据是这样的: 客户端ID,PatientID AR0001å,DH_HL704221157198295_91 AR00022,DH_HL704221157198295_92 我的原始数据的大小从我需要大约8TB摆脱这个特殊的角色。 代码加载数据: reader.option("header", true) .option("sep",