3
我想使用python进行文档搜索。由于Java托管是一个限制因素,所以Solr没有去。飞快移动:索引MS文档,PDF
所以,看起来很明显的选择。但似乎不是本机索引doc或pdf文件(如Solr可以)。有什么办法让它直接索引这些文件?
我想使用python进行文档搜索。由于Java托管是一个限制因素,所以Solr没有去。飞快移动:索引MS文档,PDF
所以,看起来很明显的选择。但似乎不是本机索引doc或pdf文件(如Solr可以)。有什么办法让它直接索引这些文件?
飞快移动只需要从这些文件中提取的文本。虽然Whoosh库不会为你提取,但有些Python库会为你提取文本,比如pdf矿工,catdoc或antiword。
更多信息请参见这两个讨论: