2017-08-01 93 views
0

我有两个gzipped csv文件IMFBOP2017_1.csv.gzIMFBOP2017_2.csv.gz在两个文件中都有相同的列,例如"Location, Indicator, Measure, Unit, Frequency, Date"Python 3.6:比较两个大gzipped csv文件和获取差异记录

共行60个百万+

我想的IMFBOP2017_1不存在于IMFBOP2017_2两个文件&显示行比较。

我的计划是将这两个文件导入到dataframes,增加一列“比较”既dataframes和更新所有字段合并像

位置|指示器|测量|单位|频|日期和不要操作。

我认为这是一个昂贵的过程,有没有简单的解决方案呢?

+1

你应该先试试,然后问什么可以改进并提供代码 –

+0

是的,这是一个昂贵的过程。文件中的行是以任何方式排序的? –

+0

@ PM 2Ring,行不排序。 – Plinus

回答

1

熊猫可以用普通的pandas.read_csv()读取gzipped的数据文件。 Pandas: Diff of two Dataframes中描述了如何在两个数据帧之间执行差异。

+0

谢谢,将检查。好一个。 – Plinus

+0

我提到上面给出的链接,它的工作......非常感谢。 – Plinus