在Python中处理大型数据池

我正在研究旨在研究人类行为的学术项目。在Python中处理大型数据池

该项目将分三个部分可分为：

的数据包括人的名单中，所有与编号，并与几个特点：身高，体重，年龄，...

我需要轻松地进行组出这个数据的（例如：所有年龄段或一定范围的高度），数据是几TB大（但可以减少2-3 gb的较小子集）。

我对该项目背后的理论背景有深入的了解，但我不是计算机科学家。我知道Java，C和Matlab，现在我正在学习python。

我想使用python，因为它看起来很简单，大大减少了Java的冗长度。问题是我想知道如何处理数据池。

我不是数据库的专家，但我想我需要一个在这里。你认为我应该使用哪些工具？请记住，其目的是在数据集上实现非常先进的数学函数，因此我们希望减少源代码的复杂性。速度不是问题。

2011-04-03 Mascarpone

您可能想更详细地描述您的数据和其中的预期操作。就像现在看来，你不需要使用关系模型。谢谢 – eat 2011-04-03 11:22:25

@eat：我将主要做统计操作：绘制图表（使用谷歌图表），执行统计操作（PCA，关键测试，..）并研究相关性。例如：身高和年龄有关系吗？采取所有高度值和年龄值并进行测试。或者：总高度值是多少？它如何改变年龄/性别/ ...？ – Mascarpone 2011-04-03 13:30:48

好吧，我认为'pytables'和'scipy/numpy'是正确的工具。谢谢 – eat 2011-04-03 13:36:55

听起来是所需要的主要功能，可以发现从：
pytables
和
scipy/numpy

2011-04-03 11:01:28 eat

由于您不是专家，我建议您使用mysql数据库作为存储数据的后端，它很容易学习，您将有能力使用SQL查询数据并使用python编写数据这MySQL Guide Python-Mysql

2011-04-03 10:56:17 Troydm

去同一个数据库的NoSQL MongoDB的一样是多Ë asier在这种情况下处理数据，而不必学习SQL。

2011-04-03 11:03:18

你可以考虑接受你的答案:) – Mascarpone 2011-04-04 09:57:03

回答