2016-10-11 45 views
-2

我有一个没有标题的文本文件,我如何使用spark数据框API读取它并指定标题。有没有指定我的架构火花数据帧读取文本文件无标题

SAMPLE_DATA = spark.read.option( “头”, “假”)的方式。文本(样本)

打印 “数据大小为{}”。格式(SAMPLE_DATA。 COUNT())

打印类型(SAMPLE_DATA)

打印sample_data.take(2)

回答

0

首先,将文件保存为CSV格式。您可以指定模式:

schema = StructType([ \ 
    StructField("column1", StringType(), True), \ 
    StructField("column2", DoubleType(), True), \ 
    StructField("column3", IntegerType(), True)]) 

依此类推。 如果您使用的火花2.0 +:

spark.read.csv(
    "file.csv", header=True, schema=schema 
) 

如果你使用的火花< 2.0:

sales = sqlContext.read.format('com.databricks.spark.csv')\ 
    .options(header='true', delimiter='whatever youre using as delimiter')\ 
    .load('file.csv', schema = schema) 
+0

非常感谢。是否有可能在python中做,也是它的模式部分。 –

+0

我的坏..这是蟒蛇。 –