我尝试使用sparklyr将数据写入hdfs或配置单元,但无法找到方法。是否有可能使用sparklyr将R数据框写入hdfs或hive?请注意,我的R和hadoop运行在两台不同的服务器上,因此我需要一种方法来写入来自R的远程hdfs。sparklyr将数据写入hdfs或配置单元
问候 拉胡尔
我尝试使用sparklyr将数据写入hdfs或配置单元,但无法找到方法。是否有可能使用sparklyr将R数据框写入hdfs或hive?请注意,我的R和hadoop运行在两台不同的服务器上,因此我需要一种方法来写入来自R的远程hdfs。sparklyr将数据写入hdfs或配置单元
问候 拉胡尔
您可以使用sdf_copy_to到数据帧复制到星火,可以说不是Temptable。然后使用DBI::dbGetQuery(sc, "INSERT INTO TABLE MyHiveTable SELECT * FROM tempTable")
将数据帧记录插入配置单元表中。
书写星火表使用Sparklyr蜂巢:
iris_spark_table <- copy_to(sc, iris, overwrite = TRUE)
sdf_copy_to(sc, iris_spark_table)
DBI::dbGetQuery(sc, "create table iris_hive as SELECT * FROM iris_spark_table")
感谢分享。这会将数据加载到配置单元的默认数据库中。你知道如何更改要导出文件的配置单元数据库吗? – bshelt141
您是否尝试过在纱模式下运行火花? [这](https://stackoverflow.com/questions/38102921/can-sparklyr-be-used-with-spark-deployed-on-yarn-managed-hadoop-cluster)发布可能会有所帮助。 – mrjoseph