2017-06-27 34 views
1

我尝试使用sparklyr将数据写入hdfs或配置单元,但无法找到方法。是否有可能使用sparklyr将R数据框写入hdfs或hive?请注意,我的R和hadoop运行在两台不同的服务器上,因此我需要一种方法来写入来自R的远程hdfs。sparklyr将数据写入hdfs或配置单元

问候 拉胡尔

+0

您是否尝试过在纱模式下运行火花? [这](https://stackoverflow.com/questions/38102921/can-sparklyr-be-used-with-spark-deployed-on-yarn-managed-hadoop-cluster)发布可能会有所帮助。 – mrjoseph

回答

0

您可以使用sdf_copy_to到数据帧复制到星火,可以说不是Temptable。然后使用DBI::dbGetQuery(sc, "INSERT INTO TABLE MyHiveTable SELECT * FROM tempTable")将数据帧记录插入配置单元表中。

1

书写星火表使用Sparklyr蜂巢:

iris_spark_table <- copy_to(sc, iris, overwrite = TRUE) 
sdf_copy_to(sc, iris_spark_table) 
DBI::dbGetQuery(sc, "create table iris_hive as SELECT * FROM iris_spark_table") 
+0

感谢分享。这会将数据加载到配置单元的默认数据库中。你知道如何更改要导出文件的配置单元数据库吗? – bshelt141