假设我在4节点H2O簇上有20个帧:a1..a5,b1..b5,c1..c5,d1..d5。我想把它们合并成一个大框架,从中我将建立一个模型。cbind在rbind之前,还是在cbind之前rbind?
是更好地结合起来的列集合,然后再结合行:
h2o.rbind(
h2o.cbind(a1, b1, c1, d1),
h2o.cbind(a2, b2, c2, d2),
h2o.cbind(a3, b3, c3, d3),
h2o.cbind(a4, b4, c4, d4),
h2o.cbind(a5, b5, c5, d5)
)
或者,行第一组合,则列:
h2o.cbind(
h2o.rbind(a1, a2, a3, a4, a5),
h2o.rbind(b1, b2, b3, b4, b5),
h2o.rbind(c1, c2, c3, c4, c5),
h2o.rbind(d1, d2, d3, d4, d5)
)
对于参数的缘故,1/2/3/4/5可能每个代表一个月的数据,这就是为什么他们分别导入。而a/b/c/d是不同的功能集合,这再次解释了为什么它们是分开导入的。比方说,a1..a5有1728列,b1..b5有113列,c1..c5有360列,而d1..d5是单列(我将建模的答案)。 (虽然我怀疑,因为H2O是列数据库,a/b/c/d中列的相对数量无关紧要)
“更好”我的意思是更快,但如果有内存 - 在其中一个或另一个的使用差异,这也是很好的知道:我主要感兴趣的是大数据案例,其中的组合框架足够大,我不能将它放在只是aa的记忆中单节点。
对您的downvote收到评论总是有用的。否则,我应该怎么知道什么不清楚,或者需要修复? –