apache-spark

    1热度

    1回答

    是否有可能从Apache Spark中的IBM GPFS(全局并行文件系统)中读取数据? 我的目的是用这样的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算采用的是Hortonworks数据平台的环境。我读过一些articles, deploying IBM Spectrum Scale File System,说你可以

    0热度

    1回答

    我想使用spark结构化流式api读取s3中的avro文件。你可以找到有关使用kafka的信息,但是我找不到s3的任何信息。这里的问题是我不知道要设置什么格式。这里是我的简单代码: Dataset<Row> baseDataSet = sparkSession .readStream() .format("?") //What this format sho

    1热度

    1回答

    我组合了两个具有不同行数的数据帧。使用cbind.na功能组合qpcR库组合两个数据帧。它显示了在我的本地机器中正确使用spark_apply功能的结果。但是,在集群模式下,它显示如下错误。 注意:单个数据框显示集群和本地的结果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

    1热度

    1回答

    我在AWS一个蜂房表名为table1仅带有一列,它看起来像图所示: COL1 (null) active 试图下面查询 select * from table1 where COL1 NOT IN ('reversed') 蜂房是返回只有一行 COL1 active 为什么它不返回记录(null)? 我知道修正是修改条件如下。但我想调试这个问题,以便这不会对其他查询 wher

    1热度

    1回答

    我试图使用​​在windows启动火花的工作。 Spark应用程序工作正常,没有指定日志选项。 用下面--driver-java-options: --driver-java-options "-Dlog4j.configuration=file:///d:/launch/log4j-spark.properties" 我得到的错误信息: 该系统找不到指定的路径。 我试过很多的组合,但没有运气

    1热度

    1回答

    我有一个Dataframe,我试图展平。作为该过程的一部分,我想将其分解,所以如果我有一列数组,则将使用数组的每个值创建一个单独的行。我知道我可以使用爆炸函数。但是,我有一个问题,该列包含空值,我使用火花1.6。下面是数据类型和我想要什么的例子: 我的数据: id | ListOfRficAction| RficActionAttachment _________________________

    2热度

    2回答

    我想要得到一个降序,并使用spark从一个csv文件中取整数为zhvi。 但是,当我在代码的末尾尝试sort(desc("Zhvi"))时。它总是给我错误。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

    0热度

    1回答

    我在本地运行Spark并且出现了一个奇怪的问题。基本上,我可以使用DataFrame的show()方法输出任意数量的行,但是,当我尝试使用count()或collect()(甚至是很少量的数据)时,Spark就会停留在该阶段。永远不会完成它的工作。我使用gradle来构建和运行。 当我运行 ./gradlew clean run 程序卡住在 > Building 83% > :run 什么

    0热度

    1回答

    我正在使用火花消费者(从spa‌​rk-streaming-kafka_2‌​.10版本1.6.0)。 我的火花发射器从kafka队列侦听5分区的消息。假设我停止了我的火花应用程序,然后根据我的配置读取最小或最大的偏移值。但是我的Saprk应用程序应该在我停止之后读取meesage。例如,我停止过程3.00PM,并在3.30PM启动火花发射器。然后,我想阅读下午3点至下午3点30分之间的所有消息。

    0热度

    1回答

    我想在使用Hue的Oozie上运行一个简单的python脚本。我使用的是安装了所以我也加入了Cloudera管理器,火花的配置(火花服务高级配置片段(安全阀)的火花的conf/spark-env.sh) if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/pyth