我在很远的地方对很多行业强度的数据库执行了许多SQL查询,但要花费很长时间才能收到结果。当我的计算机与R几乎在数据库的旁边时,速度要快得多,这导致我相信它是我的计算机和数据库之间的延迟是瓶颈,并且运行并行查询可能会加快速度。我们在不同的大陆。Windows中的并行for循环
这里是一个工作版本,是不是在并行:
doQueries <- function(filenameX, inp1, inp2) {
print(paste("Starting:", inp1, inp2, ",saving to", filenameX, sep=" "))
# Here should the query be (using RODBC)
# save(queryresults, file="filenameX")
}
input.rows <- cbind(c("file1.rda","file2.rda","file3.rda"),c("A","B","C"),c(12,13,14))
for (i in 1:nrow(input.rows)) {
doQueries(filenameX=input.rows[i,1], inp1=input.rows[i,2], inp2=input.rows[i,3])
}
我已经用下面的代码尝试,但在foreach库似乎并没有被avaliable,当我从阅读CRAN理解,并行将取代以前的软件包(“package'foreach'不可用(R版本2.15.0)”)。
library(parallel)
library(foreach)
foreach (i=1:nrow(input.rows)) %dopar% {
doQueries(filenameX=input.rows[i,1], inp1=input.rows[i,2], inp2=input.rows[i,3])
}
我应该怎么做呢?
感谢所有对Stackoverflow的贡献者!
/Chris
更新:感谢nograpes,我设法加载库。下面的代码似乎工作:
library(RODBC)
library(doParallel)
library(foreach)
# odbcCloseAll()
# my_conn <- odbcConnect("database", uid="xx", pwd="yy", case="nochange")
doQueries <- function(filenameX, inp1, inp2) {
print(paste("Starting:", inp1, inp2, ",saving to", filenameX, sep=" "))
# sql.test <- RODBC::sqlQuery(my_conn, "SELECT * FROM zzz LIMIT 100", rows_at_time=1024)
# save(sql.test, file="filenameX")
}
input.rows <- cbind(c("file1.rda","file2.rda","file3.rda"),c("A","B","C"),c(12,13,14))
cl <- makeCluster(3)
registerDoParallel(cl)
foreach (i=1:nrow(input.rows)) %dopar% {
doQueries(filenameX=input.rows[i,1], inp1=input.rows[i,2], inp2=input.rows[i,3])
}
stopCluster(cl)
但是,当我有实际的SQL查询,出现此错误消息: 错误{: 任务1失败 - “第一个参数是不是一个开放的RODBC通道”
难道是这样,这在概念上将无法正常工作?该RODBC一次不能处理多个查询?
我非常感谢所有支持。
/克里斯
更新2:非常感谢nograpes了很好的和令人印象深刻的答案。很难判断数据传输本身是否更快(我认为总吞吐量快20%左右),但是我发现由于查询(大约100)有不同的响应时间,并且需要后处理(我将其包含在函数中在保存之前),我可以更好地利用链接和本地CPU。即只有一次查询时,CPU在数据传输过程中几乎不会被使用,然后在CPU工作时链路将保持安静。使用并行查询,我可以看到数据到达并且CPU同时工作。总的来说,它变得更快。非常感谢!
/Chris
如果瓶颈是您的计算机和数据库之间的网络连接,则并行查询速度不会更快。 SQL查询将同时在数据库上执行(可能会更快一些,但可能不会),然后发送到您的计算机。发送到您的计算机部分将是缓慢的部分,你不会通过并行化来改变它。 – nograpes