0
我有一个csv文件的工作就像下面转换数据集[数组[字符串]]到数据集[MyCaseClass]
"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""
因为额外的报价,spark.read.csv不给清洁列。 所以我想到了使用给出数据集[String]的spark.read.textFile。我使用下面的代码来删除引号并将其拆分。
case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails
有没有办法实现这种数据集转换或更好的方式分成多个列? 现在我正在使用RDD来完成工作,但想知道数据集/数据框的做法。
当然是可以做的!谢谢!! – Shasankar