Python 3.6：比较两个大gzipped csv文件和获取差异记录

我有两个gzipped csv文件IMFBOP2017_1.csv.gz和IMFBOP2017_2.csv.gz在两个文件中都有相同的列，例如"Location, Indicator, Measure, Unit, Frequency, Date"。Python 3.6：比较两个大gzipped csv文件和获取差异记录

共行60个百万+

我想的IMFBOP2017_1不存在于IMFBOP2017_2两个文件&显示行比较。

我的计划是将这两个文件导入到dataframes，增加一列“比较”既dataframes和更新所有字段合并像

位置|指示器|测量|单位|频|日期和不要操作。

我认为这是一个昂贵的过程，有没有简单的解决方案呢？

2017-08-01 Plinus

你应该先试试，然后问什么可以改进并提供代码 –

是的，这是一个昂贵的过程。文件中的行是以任何方式排序的？ –

@ PM 2Ring，行不排序。 – Plinus

熊猫可以用普通的pandas.read_csv()读取gzipped的数据文件。 Pandas: Diff of two Dataframes中描述了如何在两个数据帧之间执行差异。

2017-08-01 11:26:48

谢谢，将检查。好一个。 – Plinus

我提到上面给出的链接，它的工作......非常感谢。 – Plinus

回答