2011-09-23 99 views
1

我有一个Rails应用程序,可接受任意业务文档(如Word,Excel,Powerpoint和PDF)的文件上传。我需要使所有这些文档都可搜索,最好使用Sphinx或PostgreSQL全文搜索。什么是最好的解决方案?如何将PowerPoint文档和Excel文档放入全文搜索索引(如Sphinx或PostgreSQL文本搜索)中?

+0

这里有一个相关的问题:http://stackoverflow.com/questions/1207995/indexing-word-documents-and-pdfs-with-sphinx – dtt101

回答

0

正如评论中指出的那样,这个问题在一个较老的问题中得到了很好的阐述。

简而言之:您将不得不将这些文件中的相关提取数据存储在Sphinx的数据库中,也可能用于PostgreSQL全文搜索。狮身人面像现在也可以理解纯文本文件(只要数据库列指向一个文件),但这仍然会涉及另一个工具从PDF,DOC,XLS等提取数据。