2016-10-11 21 views
0

我在s3中加载制表符分隔的文件,在spark中创建一个数据框。我需要获取数据帧中每条记录的输入文件名信息以供进一步处理。我试过如何获取火花数据框中记录的输入文件名?

dataframe.select(inputFileName()) 

但是我得到了input_file_name的空值。有人请帮我解决这个问题。

回答

1

可以使用withColumninput_file_name创建数据帧上一个新列:

dataframe.withColumn("input_file", input_file_name) 
+0

小错字'dataframe.withColumn( “INPUT_FILE”,input_file_name())' – markop