2
我们正在为机构建立实时搜索功能,该索引是基于用户上传的文件(主要是Word/Excel/PDF/PowerPoint和ASCII文件)。 I/O预计只有10 IOPS -20 IOPS,但可能因日期而异。最大I/O可能是100 IOPS。目前的数据库大小已达10GB,已有4个月的历史。如何索引PDF/MS-Word/Excel文件非常快速的全文搜索?
对于实时搜索服务器,我正在考虑Solr/Lucene,可能还有ElasticSearch。但挑战是如何将这些文件编入索引,以便搜索服务器可以实时查询索引。
我已经找到了如何索引的.doc/.xls的/ .PDF一些类似的问题,但他们没有提到如何保证索引性能:
- Search for keywords in Word documents and index them
- Index Word/PDF Documents From File System To SQL Server
- How to extract text from MS office documents in C#
- Using full-text search with PDF files in SQL Server 2005
所以我的问题是:如何建立索引FAST?
对架构有何建议?我应该专注于构建快速基础架构(即RAID,SSD,更多CPU,网络带宽?)还是专注于索引工具&算法?