1
我想读取20gb的数据集。我已经搜索了一个解决方案,我试过了:阅读大型数据集大熊猫
data = pd.read_csv('dataset.csv', chunksize=1000,usecols=fields)
df = pd.concat(data, ignore_index=True)
但传递到串联时仍然出现内存错误。 (我改变块大小很多时间,仍然是相同的)
我有16GB的RAM工作在3000mhz。
有什么建议吗?
我正在尝试将数据导入数据框以进行数据分析并将其导出回来。 (数据需要清理干净和噪音的数据)。
您是否真的需要将整个数据集放在内存中,还是可以按块处理它? – MaxU
[这个答案](https://stackoverflow.com/a/46425826/4889267)可能是相关的 - 读取(这是为了打开大型excel文件,并建议使用CSV) – AK47
相关:https:// stackoverflow。 com/questions/14262433/large-data-work-flows-using-pandas?rq = 1当你只有16GB内存时,你是否也相信可以加载20GB文件? – EdChum