2017-03-31 88 views
-1

我想创建一个带有110列的数据框,因此当我尝试将rdd转换为数据框时,我创建了一个具有110个属性的类。转换为数据帧错误

case class Myclass(var cin_nb:String,...........,var last:String) 
import sqlContext.implicts._ 
file2.map(_.split("\t")).map(a=>Myclass(a(0),a(1),a(2),a(3),.....a(110)).ToDf() 

我得到这个错误:

not enough arguments for method apply: (cin_nb: String,...........,last:String) 

我使用Scala和火花1.6。谢谢

+0

缺少一个字做这方面的一个例子。应该是'case class Myclass(var cin_nb:String,...........,var last:String)' – Pushkr

回答

1

你不能这样做,因为有大小写类/ StructType模式的22列的硬限制。这是由于Scala中的Tuple仅支持22个元素!要将数据帧增长到更多列,您需要使用.withColumn函数来扩展它,或者从文件直接加载到Dataframe中。例如,来自实木复合地板,或者使用databricks csv解析器。

编辑:如何用.withColumn

import scala.util.Random 

val numCols = 100 
val numRows = 5 
val delimiter = "\t" 

def generateRowData = (0 until numCols).map(i => Random.alphanumeric.take(5).mkString).mkString(delimiter) 

val df = sc.parallelize((0 until numRows).map(i => generateRowData).toList).toDF("data") 

def extractCol(i: Int, sep: String) = udf[String, String](_.split(sep)(i)) 

val result = (0 until numCols).foldLeft(df){case (acc,i) => acc.withColumn(s"c$i", extractCol(i,delimiter)($"data"))}.drop($"data") 

result.printSchema 
result.show 
+0

我无法从文件直接加载到Dataframe中;我必须从文件中过滤一些行(版权行)。 –

+0

您将需要使用.withColumn选项,然后......将所有内容加载到单列的Daraframe中,然后使用udf –

+0

解析出该列中的位,谢谢;请给我举个例子 –