2011-07-16 49 views
1

我目前正在为我的python程序寻找文本索引器。我入围Solr,一个Lucene项目和原生Python的Whoosh。我搜索了很多关于doc,docx和pdf文件支持的文档,Solr一直指着我Tika包,其中一个版本与Solr集成。支持doc,docx和pdf文件的文本索引器(for python)

结果没有提到某些条款,如果任何软件包有内置支持三种格式。 Whoosh和Solr支持他们吗?哪个其他开源索引器本地读取这些格式?

回答

3

使用Solr 1.4或更高版本,您可以随时上传和索引Word和PDF文件;见:http://wiki.apache.org/solr/ExtractingRequestHandler

Solr的ExtractingRequestHandler使用提卡允许用户二进制文件上传到Solr和Solr的有从中提取文本,然后建立索引。

+0

我发现extractOnly = true有用,因为我将我的文本存储在sqldb中,仅使用Solr进行索引/搜索。 – Jegschemesch

相关问题