apache-spark

-2热度

3回答

我看到一个常见的设置来使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g开始pyspark，但如何驾驶员记忆从执行性记忆有什么不同？您能否解释一下驱动程序是什么以及如何在此设置影响pyspark工作流程/性能？谢谢！

-4热度

1回答

Spark Scala数据帧等级分类

你好，我有原始数据，比如1我想添加一个以80为中断点的列作为合格等级，结果应该是2。我正在使用sqlContext.read.format（“com.databricks.spark.csv”）来读取原始数据。任何帮助！

0热度

1回答

Hive合并小ORC文件

我的输入包含大量的小ORC文件，我希望在一天的每一天结束，我想将数据拆分为100MB的块。我的输入和输出都是S3和环境中使用的电子病历，蜂巢参数，正在设置， set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

5热度

1回答

如何将具有bucketBy/sortkey值的parquet文件保存到s3中？

它看起来像这样就会因错误 df .write() .option("mode", "DROPMALFORMED") .option("compression", "snappy") .mode("overwrite") .bucketBy(32,"column").sortBy("column") .parque

-1热度

1回答

如何使用RDD去除PySpark中的某些正则表达式？

假设我试图删除这个正则表达式“RT \ s * @ USER \ w \ w {8}：\ s *” 并且我想在我的RDD中删除这种形式的正则表达式。我现在RDD是： text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和这里就是我试图删除正则表达式的一部分。我试着做下面的RDD转换来摆脱每一个匹配这个

0热度

2回答

将Dataframe转换为Scala可变映射不会产生相同数量的记录

我是Scala/spark的新手。我正在研究Scala/Spark应用程序，该应用程序从配置单元表中选择几列，然后将其转换为可变映射，其中第一列是键，第二列是值。例如： +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 将被转换为Scala.mutab

0热度

2回答

Scala Spark - 计算Dataframe列中特定字符串的出现

如何计算df列中使用Spark分区的字符串出现次数id？例如在列查找值"test"的df 在SQL "name"是： def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

-6热度

1回答

Scala错误未关闭字符文字访问数据帧

在尝试使用Scala访问Spark的Dataframe操作时，返回字符文字错误。 [ERROR] /home/cloudera/sharedCloudera-vm/hw3-skeleton/Q2/src/main/scala/edu/gatech/cse6242/Q2.scala:25: error: unclosed character literal [INFO] val filterNod

1热度

1回答

JanusGraph 0.2.0 Spark未能连接到主设备

当我使用JanusGraph 0.2.0文档的第35章中的示例时，它是可以的。但是当我将conf/hadoop-graph/hadoop-load.properties中的spark.master从local [*]更改为spark：//192.168.63.105：7077时，我收到了一些警告信息。 JanusGraph 0.2.0文档的第35章有一个注释：本章中的示例基于在本地模式下运行Sp

0热度

1回答

从数据框的列中删除特殊字符

我试图从数据框的列中删除特殊字符（？）。我的数据是这样的：客户端ID，PatientID AR0001å，DH_HL704221157198295_91 AR00022，DH_HL704221157198295_92 我的原始数据的大小从我需要大约8TB摆脱这个特殊的角色。代码加载数据： reader.option("header", true) .option("sep",