我有一组大数据文件(1M行x 20列)。但是,这些数据中只有5列是我感兴趣的。将熊猫数据框写入csv文件块
我想通过仅创建感兴趣的列创建这些文件的副本,我可以让事情变得更加简单,因此我可以使用较小的文件进行后期处理。
我的计划是将文件读入数据框然后写入csv文件。
我一直在研究大块数据文件读取到一个数据框。
但是,我一直无法找到任何关于如何将数据写入一个csv文件的块。
这里是我尝试了,但是这并不追加csv文件:
with open(os.path.join(folder, filename), 'r') as src:
df = pd.read_csv(src, sep='\t',skiprows=(0,1,2),header=(0), chunksize=1000)
for chunk in df:
chunk.to_csv(os.path.join(folder, new_folder,
"new_file_" + filename),
columns = [['TIME','STUFF']])
你错过os.path.join点:'os.path.join(文件夹,new_folder, “new_file_” +文件名)' – Alexander
感谢没收! –
我注意到,当我使用mode ='a'追加时,列标签会在每个块后写入。如何确保列标签只出现在文件的开头? – user1964692