我想读取一个csv文件到与谷歌计算群集中的sparklyr包的结构。这是配置:阅读csv函数sparklyr错误
测试星火框架install.packages("sparklyr")
install.packages("dplyr")
library(sparklyr)
spark_install(version = "1.6.2")
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
sc <- spark_connect(master = "yarn-client", config=config ,version = "1.6.2")
有表示“无效参数”的错误只是粘贴,我将用于spark_read_csv功能路径字符串后。即使我没有点击保存按钮,它也会弹出。
任何想法,为什么我得到这个错误?有趣的是,我只是在amazon EMR中尝试了相同的安装配置,并且遇到了同样的问题。
感谢您的建议schristel,但我使用了spack_read_csv指南中指出的格式,但仍然遇到错误。在谷歌计算的情况下,我将文件传输到rstudio工作区,并尝试使用“file:// home/ruser/filename”和“file:/// home/ruser/filename”。 –
好吧,如果没有可重复使用的例子,我无法排除故障,但是运气好。如果您找到解决方案,请跟进! – schristel
谢谢Schristel。这是我如何设置命令:secondary_two_tbl < - spark_read_csv(sc,“SECONDARYtwo.csv”, path =“file:/// home/ruser/sparkly-blog”) –