我正在从两个需要加入的不同数据库中下载两个数据集。当我将它们存储为CSV时,它们各自分别大约为500MB。另外适合内存,但是当我加载我有时会得到一个内存错误。当我尝试将它们与熊猫合并时,我肯定会陷入麻烦。在熊猫中加入两个大型数据集的最佳方法
对它们进行外连接的最佳方法是什么,以便我不会出现内存错误?我手边没有任何数据库服务器,但如果有帮助,我可以在我的计算机上安装任何类型的开源软件。理想情况下,我仍然只想用熊猫解决它,但不知道这是否可能。
澄清:合并我的意思是一个外连接。每个表格有两行:产品和版本。我想检查哪些产品和版本只在左侧表格中,仅在右侧表格和两个表格中。我用
pd.merge(df1,df2,left_on=['product','version'],right_on=['product','version'], how='outer')
什么操作系统你在跑吗? – user2027202827
请更详细地说明你期望这个程序做什么,以及这个连接应该在哪些领域工作。在最好的情况下,您可以将两个CSV文件合并(逐行)。此外,如果您可以发布导致内存错误的代码,这将有很大帮助。 –
我对原始问题添加了更多详细信息 – Nickpick