我有一个庞大的时间序列函数存储在一个HDF5商店的熊猫数据框中,我想绘制时间序列中每个函数的特定变换图。由于地块的数量非常大,并且绘制它们需要很长时间,所以我使用了fork()
和numpy.array_split()
来打破索引并且同时运行多个地块。如何分配熊猫数据框?
这样做是指每个进程都有整个时间序列的副本。既然限制了我可以运行的进程的数量是我使用的内存总量,我希望能够让每个进程只存储它自己的数据帧块。
如何拆分熊猫数据框?
我有一个庞大的时间序列函数存储在一个HDF5商店的熊猫数据框中,我想绘制时间序列中每个函数的特定变换图。由于地块的数量非常大,并且绘制它们需要很长时间,所以我使用了fork()
和numpy.array_split()
来打破索引并且同时运行多个地块。如何分配熊猫数据框?
这样做是指每个进程都有整个时间序列的副本。既然限制了我可以运行的进程的数量是我使用的内存总量,我希望能够让每个进程只存储它自己的数据帧块。
如何拆分熊猫数据框?
np.array_split
对于这个用例非常有效。
[40]: df = DataFrame(np.random.randn(5,10))
In [41]: df
Out[41]:
0 1 2 3 4 5 6 7 8 9
0 -1.998163 -1.973708 0.461369 -0.575661 0.862534 -1.326168 1.164199 -1.004121 1.236323 -0.339586
1 -0.591188 -0.162782 0.043923 0.101241 0.120330 -1.201497 -0.108959 -0.033221 0.145400 -0.324831
2 0.114842 0.200597 2.792904 0.769636 -0.698700 -0.544161 0.838117 -0.013527 -0.623317 -1.461193
3 1.309628 -0.444961 0.323008 -1.409978 -0.697961 0.132321 -2.851494 1.233421 -1.540319 1.107052
4 0.436368 0.627954 -0.942830 0.448113 -0.030464 0.764961 -0.241905 -0.620992 1.238171 -0.127617
只是漂亮打印,因为你在这里得到3个元素的列表。
In [43]: for dfs in np.array_split(df,3,axis=1):
....: print dfs, "\n"
....:
0 1 2 3
0 -1.998163 -1.973708 0.461369 -0.575661
1 -0.591188 -0.162782 0.043923 0.101241
2 0.114842 0.200597 2.792904 0.769636
3 1.309628 -0.444961 0.323008 -1.409978
4 0.436368 0.627954 -0.942830 0.448113
4 5 6
0 0.862534 -1.326168 1.164199
1 0.120330 -1.201497 -0.108959
2 -0.698700 -0.544161 0.838117
3 -0.697961 0.132321 -2.851494
4 -0.030464 0.764961 -0.241905
7 8 9
0 -1.004121 1.236323 -0.339586
1 -0.033221 0.145400 -0.324831
2 -0.013527 -0.623317 -1.461193
3 1.233421 -1.540319 1.107052
我得到“AttributeError:'DataFrame'对象没有属性'size'”,Pandas v0.15.0和Numpy v1.9.1?@Jeff – mgilbert
你的意思是HDF5店? – Jeff
HDF5存储只有一个对象,熊猫数据框。我会稍微纠正一下“HDF Store”的错字。 – Dan
你应该把你的数据分成几个较小的框架,并把它们写入相同的(或不同的商店)。他们可以被多个进程读取(但只能从最终进程中读取!) – Jeff