2014-06-27 141 views
1

我有一个庞大的时间序列函数存储在一个HDF5商店的熊猫数据框中,我想绘制时间序列中每个函数的特定变换图。由于地块的数量非常大,并且绘制它们需要很长时间,所以我使用了fork()numpy.array_split()来打破索引并且同时运行多个地块。如何分配熊猫数据框?

这样做是指每个进程都有整个时间序列的副本。既然限制了我可以运行的进程的数量是我使用的内存总量,我希望能够让每个进程只存储它自己的数据帧块。

如何拆分熊猫数据框?

+0

你的意思是HDF5店? – Jeff

+0

HDF5存储只有一个对象,熊猫数据框。我会稍微纠正一下“HDF Store”的错字。 – Dan

+0

你应该把你的数据分成几个较小的框架,并把它们写入相同的(或不同的商店)。他们可以被多个进程读取(但只能从最终进程中读取!) – Jeff

回答

5

np.array_split对于这个用例非常有效。

[40]: df = DataFrame(np.random.randn(5,10)) 

In [41]: df 
Out[41]: 
      0   1   2   3   4   5   6   7   8   9 
0 -1.998163 -1.973708 0.461369 -0.575661 0.862534 -1.326168 1.164199 -1.004121 1.236323 -0.339586 
1 -0.591188 -0.162782 0.043923 0.101241 0.120330 -1.201497 -0.108959 -0.033221 0.145400 -0.324831 
2 0.114842 0.200597 2.792904 0.769636 -0.698700 -0.544161 0.838117 -0.013527 -0.623317 -1.461193 
3 1.309628 -0.444961 0.323008 -1.409978 -0.697961 0.132321 -2.851494 1.233421 -1.540319 1.107052 
4 0.436368 0.627954 -0.942830 0.448113 -0.030464 0.764961 -0.241905 -0.620992 1.238171 -0.127617 

只是漂亮打印,因为你在这里得到3个元素的列表。

In [43]: for dfs in np.array_split(df,3,axis=1): 
    ....:  print dfs, "\n" 
    ....:  
      0   1   2   3 
0 -1.998163 -1.973708 0.461369 -0.575661 
1 -0.591188 -0.162782 0.043923 0.101241 
2 0.114842 0.200597 2.792904 0.769636 
3 1.309628 -0.444961 0.323008 -1.409978 
4 0.436368 0.627954 -0.942830 0.448113 

      4   5   6 
0 0.862534 -1.326168 1.164199 
1 0.120330 -1.201497 -0.108959 
2 -0.698700 -0.544161 0.838117 
3 -0.697961 0.132321 -2.851494 
4 -0.030464 0.764961 -0.241905 

      7   8   9 
0 -1.004121 1.236323 -0.339586 
1 -0.033221 0.145400 -0.324831 
2 -0.013527 -0.623317 -1.461193 
3 1.233421 -1.540319 1.107052 
+1

我得到“AttributeError:'DataFrame'对象没有属性'size'”,Pandas v0.15.0和Numpy v1.9.1?@Jeff – mgilbert