apache-spark

1热度

1回答

是否有可能从Apache Spark中的IBM GPFS（全局并行文件系统）中读取数据？我的目的是用这样的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算采用的是Hortonworks数据平台的环境。我读过一些articles, deploying IBM Spectrum Scale File System，说你可以

0热度

1回答

使用火花结构化流式读取s3中的avro文件

我想使用spark结构化流式api读取s3中的avro文件。你可以找到有关使用kafka的信息，但是我找不到s3的任何信息。这里的问题是我不知道要设置什么格式。这里是我的简单代码： Dataset<Row> baseDataSet = sparkSession .readStream() .format("?") //What this format sho

1热度

1回答

sparklyr：spark_apply函数不能在集群模式下工作

我组合了两个具有不同行数的数据帧。使用cbind.na功能组合qpcR库组合两个数据帧。它显示了在我的本地机器中正确使用spark_apply功能的结果。但是，在集群模式下，它显示如下错误。注意：单个数据框显示集群和本地的结果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

1热度

1回答

蜂房在自动过滤NULL NOT IN条件

我在AWS一个蜂房表名为table1仅带有一列，它看起来像图所示： COL1 (null) active 试图下面查询 select * from table1 where COL1 NOT IN ('reversed') 蜂房是返回只有一行 COL1 active 为什么它不返回记录（null）？我知道修正是修改条件如下。但我想调试这个问题，以便这不会对其他查询 wher

1热度

1回答

如何通过log4j的配置文件，在Windows上引发提交？

我试图使用在windows启动火花的工作。 Spark应用程序工作正常，没有指定日志选项。用下面--driver-java-options： --driver-java-options "-Dlog4j.configuration=file:///d:/launch/log4j-spark.properties" 我得到的错误信息：该系统找不到指定的路径。我试过很多的组合，但没有运气

1热度

1回答

Spark 1.6以空值爆炸

我有一个Dataframe，我试图展平。作为该过程的一部分，我想将其分解，所以如果我有一列数组，则将使用数组的每个值创建一个单独的行。我知道我可以使用爆炸函数。但是，我有一个问题，该列包含空值，我使用火花1.6。下面是数据类型和我想要什么的例子：我的数据： id | ListOfRficAction| RficActionAttachment _________________________

2热度

2回答

如何把avg降序？

我想要得到一个降序，并使用spark从一个csv文件中取整数为zhvi。但是，当我在代码的末尾尝试sort(desc("Zhvi"))时。它总是给我错误。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

0热度

1回答

show（）/ count（）永远不会完成while show（）快速运行

我在本地运行Spark并且出现了一个奇怪的问题。基本上，我可以使用DataFrame的show（）方法输出任意数量的行，但是，当我尝试使用count（）或collect（）（甚至是很少量的数据）时，Spark就会停留在该阶段。永远不会完成它的工作。我使用gradle来构建和运行。当我运行 ./gradlew clean run 程序卡住在 > Building 83% > :run 什么

0热度

1回答

Apache Spark Time基于Kafka off set

我正在使用火花消费者（从spa‌rk-streaming-kafka_2‌.10版本1.6.0）。我的火花发射器从kafka队列侦听5分区的消息。假设我停止了我的火花应用程序，然后根据我的配置读取最小或最大的偏移值。但是我的Saprk应用程序应该在我停止之后读取meesage。例如，我停止过程3.00PM，并在3.30PM启动火花发射器。然后，我想阅读下午3点至下午3点30分之间的所有消息。

0热度

1回答

在oozie中添加pyspark python路径

我想在使用Hue的Oozie上运行一个简单的python脚本。我使用的是安装了所以我也加入了Cloudera管理器，火花的配置（火花服务高级配置片段（安全阀）的火花的conf/spark-env.sh） if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/pyth