我有一个“坏”选项卡分开的文件,我需要清理。问题在于田地可能有换行。我认为解决这个问题最简单的方法就是用一些替换字符替换错误的换行符,比如空格。现在我能想象的方式来做到这一点,如果有应该是在第n行的字段将是(伪)解析错误的CSV
var line = read n-1 fields ending in a tab, and then until the end of line
line.replace("\n", " ")
line.replace("\r", " ")
write line to output
现在,这些文件是巨大的,他们啜是不是一种选择。这是一个合理的方法吗? (我知道这将在最后一个领域的线性突破中脱颖而出,但我愿意忍受这一点) 什么是读取足够数据的好方法?我不在乎它使用哪种语言,但更喜欢.net,perl或python2,因为我有可用的运行时。
如果文件不是*可怕*大,我只是在Vim的做。如果是这样,那么我个人会用Python来做。你的方法对我来说似乎很好。 –
以千兆字节为单位。我不寒而栗。 – Martijn