2011-08-23 116 views
3

在Azure解决方案中,使用IFilter从pdf/word /中提取文本内容的最佳方式是什么?Lucene .NET Azure Blob存储和IFilter

我见过使用流的IFilter的例子,但流的内容应该是什么? 它是否应该包含某种类型的OLE头文件?

将原始文件内容作为流发送到IFilter似乎不起作用。

或者将文件保存到本地文件存储并让IFilter从该位置读取它们会更好吗?

回答

1

在azure中使用ifilter将会非常棘手,因为桌面上常见的几个ifilter在azure web/worker角色中不可用。

您可以在azure中创建一个持久的VM并安装缺少的ifilter。

但是,如果要通过webupload构建lucene索引,则可以在文件上传时将文件处理为文本,然后为文本编制索引,然后单独保存该文件。在索引中添加一个字段,让您可以返回原始源文档。

可能是一种更简单的方法,但这就是我解决同一问题的方法。