我做数据挖掘的研究,经常有从SQLite数据库,CSV文件,咸菜文件等加载大型数据集在发展过程中,常常需要改变我的脚本的Python脚本,我发现自己在等待20到30秒的等待为数据加载。如何在Python中快速加载大型数据集?
加载数据流(例如来自SQLite数据库)有时可以工作,但不是在所有情况下 - 如果我经常需要返回数据集,我宁愿支付加载数据的前期时间成本。
我最好的解决方案至今被欠采样数据,直到我很高兴我最终脚本。有没有人有更好的解决方案/设计实践?
我的“理想”的解决方案将涉及使用Python调试器(PDB)巧妙地使数据保持在内存中加载,我可以编辑我的脚本,然后从给定的点恢复。要做到这一点
您可以使用RAM驱动器(和复制数据库文件存在),或者是数据量望而却步? – nvlass