2014-05-06 48 views
2

我们正在为机构建立实时搜索功能,该索引是基于用户上传的文件(主要是Word/Excel/PDF/PowerPoint和ASCII文件)。 I/O预计只有10 IOPS -20 IOPS,但可能因日期而异。最大I/O可能是100 IOPS。目前的数据库大小已达10GB,已有4个月的历史。如何索引PDF/MS-Word/Excel文件非常快速的全文搜索?

对于实时搜索服务器,我正在考虑Solr/Lucene,可能还有ElasticSearch。但挑战是如何将这些文件编入索引,以便搜索服务器可以实时查询索引。

我已经找到了如何索引的.doc/.xls的/ .PDF一些类似的问题,但他们没有提到如何保证索引性能:

所以我的问题是:如何建立索引FAST?

对架构有何建议?我应该专注于构建快速基础架构(即RAID,SSD,更多CPU,网络带宽?)还是专注于索引工具&算法?

回答

1

我们正在为办公文档建立一个高性能的全文搜索。我们可以分享一些见解:

希望它有帮助!