0
我有一个制表符分隔的文件,其注释由##
表示。我想文件读入到一个数据帧,并且想使用类似:多字符评论字符串Spark CSV阅读器
val targetDF = sparkSession.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.option("delimiter", "\t")
.option("comment", "##")
.load(pathToFile)
当我尝试这个,我得到一个运行时异常:java.lang.RuntimeException: comment cannot be more than one character
。处理这个问题的最佳方法是?
问题是标题以单个'#'开头,所以它会丢掉有效的行,并且也不能保证我的数据不以'#'开头。 –
难道你不能只在头部加上别的东西吗? – cheseaux
我符合文件格式[此处](https://samtools.github.io/hts-specs/VCFv4.2.pdf)并尝试将此工具公开给其他用户。此外,文件非常大(〜1.5 TB),所以我想尽量减少IO –