我正在使用sparklyr
库。在Spark中做计算(R)
我有一个变量,wtd
我复制到火花:
copy_to(sc,wtd)
colnames(wtd) <- c("a","b","c","d","e","f","g")
然后,我想做一个计算和存储的火花,而不是在我的R.
当我试图环境:
sdf_register(wtd %>% group_by(c,b) %>% filter(row_number()==1) %>%count(d), "wtd2")
错误UseMethod( “sdf_register”): 没有适用的方法对于“sdf_register”适用于类的对象“C(‘tbl_df’,‘TBL’,‘data.frame’)”
命令wtd2 = wtd %>% group_by(c,b) %>% filter(row_number()==1) %>%count(d)
工作正常,但将其保存在我的环境中,不在火花中。
谢谢!这有帮助! –
@JaimeCaffarel这很有趣,你的回答在这一刻帮助我很多! :)我没有得到什么是运行'copy_to'和'sdf_register'之间的区别。 Arent我们在两种情况下都创建了火花datafranes? –
@Noobie谢谢:-)区别在于'copy_to'只是将数据框复制到Spark中,而'sdf_register'为数据框创建Hive元数据,因此您可以使用Hive检查数据(从表“wtd2”在这种情况下)。 –