2017-03-27 31 views
0

我正在将Spark数据框加载到H2O中(使用Python)以构建机器学习模型。我建议我应该分配一个H2O集群,RAM的大小与我将要训练的框架一样大,以便分析可以很好地适应内存。但我不知道如何精确估计H2O框架的大小。如何确定Python中H2O框架的字节大小?

所以假设我已经有一个H2O框架已经加载到Python中,我怎样才能真正确定它的大小以字节为单位?近似值在10-20%之内很好。

回答

2

这将显示底层表示的在H 2 O的键值存储的摘要,包括完整的字节大小:

frame.describe(chunk_summary=True) 
0

这是指磁盘上文件大小的2-4倍,所以不要在Python中查看内存,请查看原始文件大小。此外,2-4x建议因算法而异(GLM & DL需要的内存少于基于树的模型)。

+0

是通过从施加各种变换火花数据帧转换产生的H 2 O帧(这是它本身最初是从Hive查询生成的)。据我所知,它并不直接与磁盘上的文件相对应。 – abeboparebop

相关问题