在大熊猫read_table,让我们说我有一个我想与read_table阅读以下字符串:防止大熊猫落下制表符
A\tB\tC\t\t\tD\t\tE\t\t\t\t\t\t\t
其中\ t为制表符。如果我使用read_table像这样:
with open('file.dat') as f:
df = pd.read_table(f, delimiter = '\r\n\')
它会读取FILE.DAT每一行,但它会从每行删除尾随\ t和从示例行只保留此:
A\tB\tC\t\t\tD\t\tE
在另一方面,如果我只是从文件中直接读取行,像这样:
line = []
with open('file.dat') as f:
for l in f:
line.append(l)
我可以确认\ t为存在的文件中。
为什么会发生这种情况,更重要的是我该如何预防它?
因为\ t不分隔符,\ r \ n是用于窗户的换行符。我的预期输出正是我上面所说的,单个列,每行在file.dat中包含一行,这样df ['line'] ='A \ tB \ tC \ t \ t \ tD \ t \ tE \ t \ t \ t \ t \ t \ t \ t'。我不能显示实际的数据,因为它是敏感的,但我复制了数据,并从我在ipython笔记本上执行df ['line'] [0](第一个输出)和line [0](第二个输出)时用ABCD替换值 – CHP
pandas read_csv和最后一个逗号导致解析问题有问题。我想这就是为什么最后一次被丢弃。 – Merlin
我敢打赌,它会删除最后一个实际文本后面的所有\ char字符 - 我想这不太好。哦,我想我需要另一种方法。 – CHP