1
我试图使用spark + spark-cassandra-connector将一张桌子复制到另一张桌子,花费很多时间(〜17小时)。即使对于所有行(~2亿)的简单计数,我也花费了大约1个小时。 我如何加快这个过程? 卡桑德拉版本:3.1使用Spark + Cassandra处理一张桌子到另一张桌子的低性能
object Init {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf(true)
.set("spark.cassandra.connection.host", "host")
// .set("spark.cassandra.input.split.size_in_mb", "16")
// .set("spark.executor.memory", "4g")
.setAppName("spark2Cassandra")
.setMaster("local[*]")
val sparkContext = new SparkContext(sparkConf)
val table = sparkContext.cassandraTable("testkeyspace", "test_5")
table.saveToCassandra("testkeyspace", "test_4")
}
}
就像我说过,它可能依赖于很多事情,你需要真正看看你的OS指标来确定瓶颈。 – RussS