0
我是Spark的新手,并试图尽可能多地读取&研究。目前我被困在这个上,我花了几天的时间来解决。我已经在3台机器(1台主机,2台从机)上成功建立了Spark Clusters,并运行了一些示例。现在我正在尝试编写一个Python应用程序,它将读取csv文件,然后将每行分成一个JSON文件并将其全部上传到S3。这里是我的问题:将Spark数据框分割为每一行并将其转换为JSON - Python
我已经转换的CSV星火据帧,使用
SparkSession.read.csv()
,我怎么分割这个数据框为多行并转换为JSON?我已经读过Spark DataFrame具有toJSON函数,但适用于整个DataFrame,那么如何在DataFrame的每一行而不是整个DataFrame上使用thi函数?如何在我的应用程序中应用分布式系统,给出我有2个从站和一个主站?或者,我的应用程序是否会自动将工作分成更小的部分并分配给从服务器?
如何将转换后的JSON转换为S3,一些示例代码指导将对我有所帮助。
我会非常感谢,如果你能帮助我,谢谢你的帮助提前。
所有的观点都是正确的,并帮助我找到答案很多。谢谢。 – Leo