我是新来的spark和scala。我想读取包含json文件的目录。该文件具有名为“EVENT_NAME”的属性,可以有20个不同的值。我需要根据属性值分开事件。即EVENT_NAME = event_A事件。将这些写入配置单元外部表结构中,例如:/ apps/hive/warehouse/db/event_A/dt = date/hour = hr火花数据框被写入分区
这里我有20个不同的表,用于所有事件类型和与每个事件相关的数据应该去到各自的桌子。 我已经设法编写了一些代码,但需要帮助才能正确写入我的数据。
{
import org.apache.spark.sql._
import sqlContext._
val path = "/source/data/path"
val trafficRep = sc.textFile(path)
val trafficRepDf = sqlContext.read.json(trafficRep)
trafficRepDf.registerTempTable("trafficRepDf")
trafficRepDf.write.partitionBy("EVENT_NAME").save("/apps/hive/warehouse/db/sample")
}
最后一行创建分区输出,但不是我确切需要它。请建议我怎样才能得到它正确或任何其他代码来做到这一点。
数据没有日期和时间信息在里面。我需要在外部提供它。 – Anup