1
我有一个场景,我读取一个文件作为字符串,我需要比较它与表做一些操作。如何将一个数据框的模式应用于另一个数据框?
df1 = sparkContext.parallelize(Seq(1,"aa")).toDF("Col1","Col2") // file
df2 = spark.sql("select * from table")
因此,df1是从两个列作为String的文件,而df2的架构是Int和String。这只是一个示例,我有很多列可供选择,不能提及每个列名。有没有办法将df2的列模式实现为df1?或者是否可以从表中选择*作为字符串? 示例一样,
spark.sql("select cast(* as String) from table")
如果你是从文件中读取,使用databricks包。该包会自动推断架构,而且您可以提供自己的架构。 –
你想和谁比较?给一些样品。还要提到你已经尝试了什么,以及你最困难的部分是什么? –