我想创建的数据帧具有三列:从200个变量迭代火花的Scala
现在用于在任何两列的给定数据帧“变量1”,“可变2”,“相关性”据帧我使用下面的代码来计算相关
import sqlContext.implicits._
import org.apache.spark.mllib.stat.Statistics
// Generate some random data
scala.util.Random.setSeed(1)
val df = sc.parallelize(g.sample(1000).zip(g.sample(1000))).toDF("x", "y")
// Select columns and extract values
val rddX = df.select($"x").rdd.map(_.getDouble(0))
val rddY = df.select($"y").rdd.map(_.getDouble(0))
val correlation: Double = Statistics.corr(rddX, rddY, "spearman")
我如何我能做到在数据帧一组变量x的相同,从而从所得到的数据帧,以找出最相关的变量
什么'g'到底是什么?你是否想要列的所有可能组合的相关性? – mtoto
是的,这是正确的 –