我在R中得到了一个[210,000 x 500]稀疏矩阵,我试图用h2o进行聚类。 我想像一个210,000行矩阵对于h2o不是那么大,但是当我尝试将它导入到h2o实例时,它需要很长时间(让它运行超过10分钟并在完成之前停止它) 当我子集第一个以稀疏矩阵填充10,000行并导入它,它只需要几秒钟。而且我尝试过逐渐增加,这需要很长时间。 (由60,000停止) 这是正常的还是我做错了什么?将稀疏矩阵导入h2o实例非常缓慢
这里就是我使用的是什么
library(h2o)
localH2O <- h2o.init(nthreads = -1, max_mem_size = "16g")
spmx.h2o <- as.h2o(sparse_mx)
下面是关于H2O实例的详细信息时,系统产生它:
java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11, mixed mode)
Starting H2O JVM and connecting: . Connection successful!
R is connected to the H2O cluster:
H2O cluster uptime: 6 seconds 779 milliseconds
H2O cluster version: 3.10.4.6
H2O cluster version age: 1 month and 30 days
H2O cluster name: H2O_started_from_R_M_vto433
H2O cluster total nodes: 1
H2O cluster total memory: 14.22 GB
H2O cluster total cores: 4
H2O cluster allowed cores: 4
H2O cluster healthy: TRUE
H2O Connection ip: localhost
H2O Connection port: 54321
H2O Connection proxy: NA
H2O Internal Security: FALSE
R Version: R version 3.4.0 (2017-04-21)
我试图避免编写的矩阵再次文件并导入,只是因为我认为21万行和500列不应该是一个问题h2o处理
发现几个SO答案似乎是为了解决数据传输的速度问题。这里是一个:https://stackoverflow.com/questions/41477700/optimising-sapply-or-for-paste-to-efficiently-transform-sparse-triplet-m我会搜索其他人,然后说出你试图尝试哪些,为什么他们没有解决你的问题。 –
我已经打开了JIRA票,我们正在调查问题:https://0xdata.atlassian.net/browse/PUBDEV-4630 –