最近我一直在处理大型数据集(超过40万行)。到目前为止,我一直在使用XTS格式,该格式适用于几十万个元素的“小”数据集。XTS大小限制
现在项目不断增加,R在检索数据库的数据并将其放入XTS时崩溃。
这是我的理解,R应该能够有大小为2^32-1元素(或2^64-1根据版本)的大小。因此,我得出的结论是XTS可能有一些限制,但我无法在文档中找到答案。 (也许我对自己对理论可能的矢量大小的理解有点过分自信)。
综上所述,我想知道,如果:
- XTS确实有大小限制
- 你认为什么是处理大量的时间序列的最聪明的方法是什么? (我正在考虑将分析分成几个较小的数据集)。
- 我没有收到错误消息,R只是自动关闭。这是一个已知的行为吗?
SOLUTION
- 同为R和这取决于种存储器被使用(64位,32位)。无论如何,这是非常大的。
- Chuncking数据确实是一个好主意,但它不是必需的。
- 此问题来自R 2.11.0中的错误,该错误已在R 2.11.1中解决。长日期矢量(这里是XTS的索引)存在问题。
R 3.0.0将允许具有> 2^32 - 1个元素的向量。它计划在4月正式出来,但在那之前尝试r-devel版本的R. – 2013-01-02 19:35:25