apache-spark

    1热度

    1回答

    我正在用spark.wholeTextFiles()处理一个400MB的文件,并且我一直收到内存不足错误。我第一次使用这个API的文件夹总共有40MB,我想知道我的代码是否适用于大文件,这是大文件的来源。 这是配置,我想我提供了足够的RAM堆,但仍然没有运气,我只是阅读的文件夹,然后写下来与 files.saveAsTextFile("data/output/no") 和命令是 spark-s

    0热度

    1回答

    我的主火花项目对其他utils的依赖jars.So集组合的可能是这样的: 1. main_spark-1.0.jar will work with utils_spark-1.0.jar (some jobs use this set) 2. main_spark-2.0.jar will work with utils_spark-2.0.jar (and some of the jobs u

    0热度

    1回答

    ETL作业完成后,在AWS Glue脚本中调用存储过程的最佳方式是什么? 我使用PySpark从S3获取数据并存储在临时表中。在这个过程之后,需要调用一个存储过程。该存储过程将数据从临时表加载到相应的MDS表中。 如果我必须在ETL作业完成后调用存储过程,那么最好的方法是什么?如果我考虑AWS lambda,有没有什么方法可以在ETL之后通知lambda。

    1热度

    2回答

    我有一个表包含一列“年龄”。我想根据他们的年龄分组人群,EX:[0,5],[5,10],[10,15],... 然后我会为每个组做同样的计算并比较结果。 这样做的目标是查看年龄是否与其他变量有关。 请帮忙。

    1热度

    2回答

    我有2个数据框df1和df2。 df1有1个字符串类型的列键 df1.show() key ---- k1 k2 k3 df2 has 2 columns df2.show() topic | keys ------------- t1 | [k1, k2] t2 | [pk1, pk2] 我想在df2.key中存在df1.key时加入2个数据帧。我看到以前的例

    0热度

    1回答

    读取Spark文档的第一个函数,它提到ignoreNulls会得到第一个非空值。 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.expressions.{Window, WindowSpec} object tmp {

    0热度

    1回答

    我正在加载几个Oracle表格到蜂巢,它似乎正在工作,但2表格正在出错 - IllegalArgumentException: requirement failed: Decimal precision 136 exceeds max precision 38 我检查了Oracle表格,并没有与十进制(136)精度的列,在来源中。 这里是spark-shell星火/ Scala代码: val df

    0热度

    1回答

    感激,如果有人可以在下面的代码片段问题提供一些线索现在 lineStr= sc.textFile("/input/words.txt") print (lineStr.collect()) ['this file is created to count the no of texts', 'other wise i am just doing fine', 'lets see the outp

    1热度

    1回答

    只选择每n个元素减少星火据帧的大小 I V有一个org.apache.spark.sql.Dataframe = [t: double, S: long] 现在我想通过每2元,以减少据帧,与val n=2 结果应该是 你会如何解决这个问题? 我尝试了插入第三列并使用模,但我无法解决它。

    0热度

    1回答

    我想了解Spark中的分区。 我在Windows 10本地模式下运行spark。 我的笔记本电脑有2个物理内核和4个逻辑内核。 1 /术语:对我来说,spark =核心线程。所以Spark中的核心与物理核心不同,对吧? Spark核心与任务相关联,对吗? 如果是这样,因为你需要一个分区线程,如果我的sparksql数据框有4个分区,它需要4个线程吗? 2 /如果我有4个逻辑内核,是否意味着我只能在