1
我目前正在为我的python程序寻找文本索引器。我入围Solr,一个Lucene项目和原生Python的Whoosh。我搜索了很多关于doc,docx和pdf文件支持的文档,Solr一直指着我Tika包,其中一个版本与Solr集成。支持doc,docx和pdf文件的文本索引器(for python)
结果没有提到某些条款,如果任何软件包有内置支持三种格式。 Whoosh和Solr支持他们吗?哪个其他开源索引器本地读取这些格式?
我发现extractOnly = true有用,因为我将我的文本存储在sqldb中,仅使用Solr进行索引/搜索。 – Jegschemesch