我想提一下我的小项目,如果我正常运行。我需要使用Medline的所有文章(http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html)。对于那些不熟悉Medline数据库的人,我添加一些信息:使用python和mongoDB索引20M记录
- 大约有20.000.000条记录(83.4 GB磁盘空间),每条记录都有很多字段和子字段。
- 您可以下载此数据库(带有许可证)的XML格式。
- 这些20M记录分布在653个文件中。
- 每个文件都有一个MedlineCitationSet,这是一组记录(MedlineCitation's)。
我想处理这些记录,并获得信息,如标题,摘要...然后我想这些文件(或记录)与python和mongodb索引。我有一个选项:
我已经创建了一个medline解析器,并为每个记录创建了一个mongoDB的JSON条目,并通过pubmedID建立索引之后。然后我可以创建一个函数,如get_abstract('pubmedID'):string。
我的问题是:
- 这是个好主意吗? (XML解析 - > JSON - >插入和索引!)
- 我可以使用GridFS并获取与每个文件的记录相对应的块吗?怎么样?
- 你知道吗?
是否行得通?那很好。你有问题吗?如果是这样,请提供您遇到的实际问题。这听起来像你真正的问题很简单 - 如何使用GridFS。也许你应该专注于你需要的具体帮助。 “你知道另一种方式”是一个愚蠢的问题,有无数其他方式,其中大多数是一个坏主意。 – 2011-05-03 12:24:24
谢谢S.Lott!是的,我的exatc问题是,我如何将GridFS和Medline文件结合起来? 。 – 2011-05-03 13:01:31
我的XML2JSON解析器有问题,因为这个XML不是微不足道的,我不知道GridFS是否可以帮助我...... – 2011-05-03 14:06:36