0
我正在学习Blocked sort-based indexing并且该算法讲述了通过32或64kb的某个块加载文件,因为磁盘读取是通过块来进行的,因此效率很高。通过256kb的块将内容加载到内存
我的第一个问题是我该如何加载逐块文件?64kb的缓冲区读取器?但是,如果我使用java输入流,这个优化是否已经完成,我可以只是流动的流?
我实际上使用apache spark,所以sparkContext.textFile()是否做这个优化?火花流传输怎么样?
您使用哪种文件系统来存储文件?另外,你的文件的格式是什么? –
@AlexandreDupriez普通的pc存储系统,但我也可以使用Hadoop,并且该文件将是txt,但我想知道不同的解决方案,如果它们对json,csv不同。 –