0
我有一个数据帧(DF)与3列(COL1字符串,COL2 INT,COL3字符串),但数以百万计的记录:PartitionBy去除特殊字符如下PySpark
Test's 123 abcdefgh
Tes#t 456 mnopqrst
Test's 789 hdskfdss
当我试图做partitionBy使用PySpark使用下面的语句编写数据时,Col1中的特殊字符将丢失,并在hdfs中创建目录时替换为ascii字符。在将此数据框写入hdfs时,是否有任何方法可以保留特殊字符并将其包含在目录路径中?
df.write.partitionBy("col1","col2").text(hdfs_path)
请让我知道如果我有困惑,需要更多的细节。我正在使用Spark 1.6.1