我将使用大量的结构化文件的如下:火花划分/集群执行
/day/hour-min.txt.gz
以总共14天。我将使用一个由90个节点/工人组成的群集。
我正在阅读与wholeTextFiles()
的所有内容,因为它是允许我正确分割数据的唯一方法。所有的计算都将在每分钟的基础上完成(所以基本上每个文件),并在最后减少一些步骤。大约有20,000个文件;如何有效地对其进行分区?我是否让火花决定?
理想情况下,我认为每个节点应该接收整个文件;默认情况下,火花会这样做吗?我可以执行它吗?怎么样?
你的输入文件在哪里? HDFS/S3/..? –
HDFS <加长评论> – Dimebag