2017-04-21 41 views
1

我是Sparklyr的新手,而且对R来说还是比较新的。我试图弄清楚我是否可以在本地RStudio上运行,并连接到网络上的apache spark集群。所有的博客例子都谈到了直接在apache spark集群上运行RStudio Server。任何人都可以验证这是否可能?在apache集群上使用本地rstudio上的sparklyr

回答

0

是的,这应该是可能的。 首先 - 确保您的集群可从本地PC访问。 如果是,请转到Spark群集的Spark Master Web控制台(ip_address:8080)以获取主站的URL(“spark:// ...”)。

library(sparklyr) 
# Set your SPARK_HOME path 
Sys.setenv(SPARK_HOME="path/to/spark_home") 
config <- spark_config() 
# Optionally you can modify config parameters here 
sc <- spark_connect(master = "spark://paste_your_spark_master_url:7077", spark_home = Sys.getenv("SPARK_HOME"), config = config) 

# Some test code, copying data to Spark cluster 
iris_tbl <- copy_to(sc, iris) 
flights_tbl <- copy_to(sc, nycflights13::flights, "flights") 
batting_tbl <- copy_to(sc, Lahman::Batting, "batting") 
src_tbls(sc) 

您可能还想尝试本地运行Spark。只需按照sparklyr网页上的说明操作即可:http://spark.rstudio.com/。只是可能使用更新的Spark版本(例如2.0.2)。

相关问题