如何索引PDF/MS-Word/Excel文件非常快速的全文搜索？

我们正在为机构建立实时搜索功能，该索引是基于用户上传的文件（主要是Word/Excel/PDF/PowerPoint和ASCII文件）。 I/O预计只有10 IOPS -20 IOPS，但可能因日期而异。最大I/O可能是100 IOPS。目前的数据库大小已达10GB，已有4个月的历史。如何索引PDF/MS-Word/Excel文件非常快速的全文搜索？

对于实时搜索服务器，我正在考虑Solr/Lucene，可能还有ElasticSearch。但挑战是如何将这些文件编入索引，以便搜索服务器可以实时查询索引。

我已经找到了如何索引的.doc/.xls的/ .PDF一些类似的问题，但他们没有提到如何保证索引性能：

所以我的问题是：如何建立索引FAST？

对架构有何建议？我应该专注于构建快速基础架构（即RAID，SSD，更多CPU，网络带宽？）还是专注于索引工具&算法？

来源

2014-05-06 Dio Phung

我们正在为办公文档建立一个高性能的全文搜索。我们可以分享一些见解：

我们使用ElasticSearch。很难在大文件上表现出色。我们写了几篇关于它的文章。
- Highlighting Large Documents in ElasticSearch
- Making ElasticSearch Perform Well with Large Text Fields
使用微服务架构和码头工人轻松扩展您的应用程序
原始文件不要存放在elasticsearch为二进制数据。将其单独存储在例如MongoDB中

希望它有帮助！

来源

2017-03-31 08:21:27 SochiX

如何索引PDF/MS-Word/Excel文件非常快速的全文搜索？

回答

相关问题