2016-06-11 42 views
1

我想分析大约50-60 gb的数据。我想过使用spark来做到这一点,但我无法访问集群中的多个节点。这个级别的处理可以使用火花独立模式来完成吗?如果是,我想知道处理数据所需的估计时间。谢谢!火花独立模式下50-60 gb的数据

回答

1

简答:是的。

Spark将以许多较小的块对该文件进行分区。在你的情况下,一次只会执行几个块。这几个块应该适合内存(你需要使用配置来获得这个权利)

总而言之,你将能够做到这一点,但如果你有更多的内存/内核,它会更快,所以你可以并行处理更多事物。

+0

我有一个MacBook Pro与i7处理器,16 GB的RAM。你认为需要多少时间? – Zack

相关问题