我组合了两个具有不同行数的数据帧。使用cbind.na功能组合qpcR库组合两个数据帧。它显示了在我的本地机器中正确使用spark_apply功能的结果。但是,在集群模式下,它显示如下错误。 注意:单个数据框显示集群和本地的结果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta
我在AWS一个蜂房表名为table1仅带有一列,它看起来像图所示: COL1
(null)
active
试图下面查询 select *
from table1
where COL1 NOT IN ('reversed')
蜂房是返回只有一行 COL1
active
为什么它不返回记录(null)? 我知道修正是修改条件如下。但我想调试这个问题,以便这不会对其他查询 wher
我想在使用Hue的Oozie上运行一个简单的python脚本。我使用的是安装了所以我也加入了Cloudera管理器,火花的配置(火花服务高级配置片段(安全阀)的火花的conf/spark-env.sh) if [ -z "${PYSPARK_PYTHON}" ]; then
export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/pyth