-2
我有一个没有标题的文本文件,我如何使用spark数据框API读取它并指定标题。有没有指定我的架构火花数据帧读取文本文件无标题
SAMPLE_DATA = spark.read.option( “头”, “假”)的方式。文本(样本)
打印 “数据大小为{}”。格式(SAMPLE_DATA。 COUNT())
打印类型(SAMPLE_DATA)
打印sample_data.take(2)
我有一个没有标题的文本文件,我如何使用spark数据框API读取它并指定标题。有没有指定我的架构火花数据帧读取文本文件无标题
SAMPLE_DATA = spark.read.option( “头”, “假”)的方式。文本(样本)
打印 “数据大小为{}”。格式(SAMPLE_DATA。 COUNT())
打印类型(SAMPLE_DATA)
打印sample_data.take(2)
首先,将文件保存为CSV格式。您可以指定模式:
schema = StructType([ \
StructField("column1", StringType(), True), \
StructField("column2", DoubleType(), True), \
StructField("column3", IntegerType(), True)])
依此类推。 如果您使用的火花2.0 +:
spark.read.csv(
"file.csv", header=True, schema=schema
)
如果你使用的火花< 2.0:
sales = sqlContext.read.format('com.databricks.spark.csv')\
.options(header='true', delimiter='whatever youre using as delimiter')\
.load('file.csv', schema = schema)
非常感谢。是否有可能在python中做,也是它的模式部分。 –
我的坏..这是蟒蛇。 –