2011-04-03 116 views
4

我正在研究旨在研究人类行为的学术项目。在Python中处理大型数据池

该项目将分三个部分可分为:

  1. 程序从一些偏远源读取数据,并建立本地数据池吧。
  2. 用于验证此数据池并使其保持一致的程序
  3. 允许用户读取/操作数据的Web界面。

的数据包括人的名单中,所有与编号,并与几个特点:身高,体重,年龄,...

我需要轻松地进行组出这个数据的(例如:所有年龄段或一定范围的高度),数据是几TB大(但可以减少2-3 gb的较小子集)。

我对该项目背后的理论背景有深入的了解,但我不是计算机科学家。我知道Java,C和Matlab,现在我正在学习python。

我想使用python,因为它看起来很简单,大大减少了Java的冗长度。问题是我想知道如何处理数据池。

我不是数据库的专家,但我想我需要一个在这里。你认为我应该使用哪些工具?请记住,其目的是在数据集上实现非常先进的数学函数,因此我们希望减少源代码的复杂性。速度不是问题。

+1

您可能想更详细地描述您的数据和其中的预期操作。就像现在看来,你不需要使用关系模型。谢谢 – eat 2011-04-03 11:22:25

+0

@eat:我将主要做统计操作:绘制图表(使用谷歌图表),执行统计操作(PCA,关键测试,..)并研究相关性。例如:身高和年龄有关系吗?采取所有高度值和年龄值并进行测试。或者:总高度值是多少?它如何改变年龄/性别/ ...? – Mascarpone 2011-04-03 13:30:48

+2

好吧,我认为'pytables'和'scipy/numpy'是正确的工具。谢谢 – eat 2011-04-03 13:36:55

回答

1

由于您不是专家,我建议您使用mysql数据库作为存储数据的后端,它很容易学习,您将有能力使用SQL查询数据并使用python编写数据这MySQL GuidePython-Mysql

3

去同一个数据库的NoSQL MongoDB的一样是多Ë asier在这种情况下处理数据,而不必学习SQL。

+0

你可以考虑接受你的答案:) – Mascarpone 2011-04-04 09:57:03