0
我想使用apache spark更新apache实木复合地板数据。我每天都有新的记录,我必须做的是读取spark中的当前记录,然后对新记录和旧记录进行一些聚合,然后我在parquet文件系统中更新这些记录。使用Apache Spark在Parquet文件系统中更新记录查询
我想使用apache spark更新apache实木复合地板数据。我每天都有新的记录,我必须做的是读取spark中的当前记录,然后对新记录和旧记录进行一些聚合,然后我在parquet文件系统中更新这些记录。使用Apache Spark在Parquet文件系统中更新记录查询
首先将初始记录存储到如下所示的配置单元表中。
sparkSession.read.parquet( “parquetFilePath”)write.saveAsTable( “someHiveTable”)
创建新记录数据帧
VAL newData:数据集[行] = //与新记录
使用数据帧中的任意下面的方法来追加记录
一)newData.insert入( “someHiveTable”)
B)newData.write.option( “模式”, “附加”)。saveAsTable( “someHiveTable”)。
它会更新或附加我目前的parquet文件吗?或者像我们在cassandra中所做的那样,当我们追加它时会匹配主键并覆盖那些已经存在的记录。 – Arslan