2011-03-04 14 views
1

我有一个实验设置,每次运行都会生成一些csv和文本文件。在我的研究中,我每天都会并行运行一些并尝试将它们存储并组织到目录heir-achy变得相当低效和乏味的目录中。存储大量实验和相应结果的方式

我想到的一个想法是使用MySQL或其他方式来存储运行描述以及相关的输出。然而,这样做效率低下,因为我在表格字段中存储了一些巨大的字符串。

基本上我想知道是否存在一个可以自动组织输出运行的系统。这样它会给出一个运行描述的列表,并且在选择这个列表后,你可以请求相应的输出。这不一定要用任何特定的语言,因为我希望只需将该步骤添加到shell脚本。

+0

你能张贴一些样本数据吗? – drudge 2011-03-04 19:14:04

+0

我不确定数据本身是否重要。 CSV文件只是一个格式化的输出,我可以轻松读入电子表格或进一步解析。一个示例行可能是:String,float,float – Mimyck 2011-03-04 21:32:50

+0

还打印出三到四个文本文件,需要保留其格式。 – Mimyck 2011-03-04 21:44:31

回答

0

我假设csv和txt文件为每次运行减去扩展名都是相同的。您是否考虑过一个简单的java或python脚本,它可以将文件夹中的所有csv和txt文件放入一个XML文件中,在该文件中将保存所有信息以及链接的csv文件和txt文件中的数据在一起,这意味着对于数百个文件对(csv和txt),最终可能会打开一个单独的XML文件,该文件可以打开以查看单独的运行结果?

+0

我喜欢这个想法。这将能够链接描述,输入和输出。这里的问题是xml文件很快会变得相当大,很难通读。虽然我可以在这种情况发生时创建一些东西来处理它。第二个问题是防止同时写入单个文件。并行进程都发生在单独的虚拟机上。我打算让他们都将结果提交给另一台服务器进行存储。 – Mimyck 2011-03-04 21:42:33

+1

我正在考虑将所有数据文件保存到一个临时文件夹中,并保存一定数量的文件(比如1000)。经过该次运行后,暂停,将所有数据文件压入单个XML文件并将其移至其他位置,清除临时文件夹并重新开始。我相信XML文件可以在Excel 2007或更高版本中轻松打开,因为Office 2007文件格式是一种Zipped XML结构。而且Excel有被编程为处理10-100mb范围内的文件的好处,与firefox/ie相反,即用于kb级别的HTML/XML文件。 – keepitreall89 2011-03-07 21:29:54