6
我使用下面的代码保存火花数据帧以JSON文件如何避免在保存DataFrame时生成crc文件和SUCCESS文件?
unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
输出结果是:
part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
- 如何生成一个JSON文件,而不是每一个文件线?
- 如何避免* crc文件?
- 如何避免SUCCESS文件?
问题是为什么我们需要'CRC'和'_SUCCESS'文件? Spark(worker)节点同时写入数据,这些文件充当验证的校验和。写入单个文件会消除分布式计算的想法,如果结果文件过大,则此方法可能会失败。 –