2010-07-18 64 views
0

我有大量需要存储的科学数据(150 TB +起始数据),我想知道存储数据的最佳方式(nosql或RDBMS等)大数据存储(不是nosql)

任何提示......

詹姆斯

回答

1

这真的取决于你需要在以后的数据做什么。如果数据是几个非常大的文件的集合,那么普通的文件系统就可以。如果你需要能够搜索和分析数据,那么数据库可能是最好的解决方案。

我正在使用大型数据集以及科学环境。这些数据大部分是表格式的,当我们开始时我们存储每个数据点就是一张表格。我们发现最终压缩表格并将其存储在二进制blob到数据库中要容易得多。在单独的表格中,我们存储了关于这些表格的元数据。

2

回答这个问题可以从NoSQL或RDBMS中选择:“我的数据是否构建在关系中?”

0

是否必须是一个数据库类型? NoSQL的一部分意味着一个尺寸不适合所有,为什么不两个或更多的NoSQL?一个列存储和一个图形数据库如何?

0

你应该看看NetCDFHDF5。另外,请考虑使用PyTables来访问和提取数据。