2009-10-08 22 views
1

有谁知道在.NET的API/SDK或IFilter的,可以读取主题( '标题' 元数据)和文本从以下文件:许多文件类型的IFilter或SDK?

.PDF .DOC 。XLS .PPT 。 CSV .TXT .DOCX .XLS .PPTX + OpenOffice和Open Document标准。

开源将是很棒的...但商业也可以。

我什么都找不到!

回答

1

我不认为你将能够找到一个将能够访问所有这些类型的内容的IFilter。通常,IFilter将用于特定技术。

例如,Adobe为Microsoft提供了一个可以执行Word,Excel,Powerpoint,CSV(我相信它预装了Windows)的Office。

+0

PDF文本索引的另一种选择是FoxIt Software。 http://www.foxitsoftware.com我发现他们的PDF IFilter比Adobe更可靠。 – dthrasher

+0

尽管它不是一个IFilter,但我已经使用Aspose.NET来读取文件。我想可以为Aspose.NET制作一个IFilter包装器。 – ben