使用Apache Spark在Parquet文件系统中更新记录查询

我想使用apache spark更新apache实木复合地板数据。我每天都有新的记录，我必须做的是读取spark中的当前记录，然后对新记录和旧记录进行一些聚合，然后我在parquet文件系统中更新这些记录。使用Apache Spark在Parquet文件系统中更新记录查询

2016-11-22 Arslan

首先将初始记录存储到如下所示的配置单元表中。

sparkSession.read.parquet（ “parquetFilePath”）write.saveAsTable（ “someHiveTable”）

创建新记录数据帧

VAL newData：数据集[行] = //与新记录

使用数据帧中的任意下面的方法来追加记录

一）newData.insert入（ “someHiveTable”）

B）newData.write.option（ “模式”， “附加”）。saveAsTable（ “someHiveTable”）。

2016-11-22 12:05:59 SanthoshPrasad

它会更新或附加我目前的parquet文件吗？或者像我们在cassandra中所做的那样，当我们追加它时会匹配主键并覆盖那些已经存在的记录。 – Arslan

回答