2013-05-19 49 views
3

不MongoDB的文本文档有一个特点,在那里我可以存储PDF,文本或.doc/DOCX文档,并搜寻他们 或做在两个文件之间的匹配在其内容中找到关键字?信息抽取,索引和搜索PDF,Word和MongoDB的具有

例如:

我可能要储存名为“claim.txt”具有用于
诊断代码,简短说明,日期和金额它值一个文档。
我需要存储另一个名为'physician_diagnosis.pdf'的文本,其中包含一个匹配的简短描述。

我想发出查询在那里我能找到同时具有匹配日期 和诊断相同的任何文件。 (例如“肺炎”,'12/12/2012' )

是这样的可能,只要使用其API MongoDB的,或者我需要做一些预处理?

如果可能的话,请你指点我的好例子和文档。

+2

您需要将PDF和.doc/docx转换为文本,然后使用以下命令:http://docs.mongodb.org/manual/core/text-search/ – vinipsmaker

+0

@Edmon,您可以使用它来解决问题MongoDB的?我现在正在研究,如果你问什么可以在MongoDB中完成?如果你找到一个文件,你可以提供任何文件吗?谢谢! – Chris

+0

我发现这是最接近的答案:http://v.bartko.info/?p=463 HTH – Edmon

回答

1

您的任务可能更适合Solr(http://lucene.apache.org/solr/)之类的东西,它具有许多不同文档的输入(http://wiki.apache.org/solr/ExtractingRequestHandler)。你将不得不编写一些代码来做适当的提取。

MongoDB更适用于结构化数据 - 尽管我们将它们称为文档,但我们并不是指这里的“PDF文档”或“文档文档”。它只是支持我们称之为文档的嵌套字段类型的通用格式,而不是不允许的那种关系数据库行。