我正在为我的应用程序构建Lucene Web服务器(使用Java),期望上游应用程序将近100次搜索点击次数/秒(该服务器将托管在各种物理盒子上,由负载平衡器)。数据透视我将拥有几乎50K的文档(每个文档小于1kb大小),并且每天都有新的/更新的〜500个文档。lucene索引更新策略
我想知道大多数推荐的方法,每天在500个文档上构建索引,而不会影响上游扫描过程的性能。
我不能用我的所有服务器文件索引共享之间的任何共享位置,几个选项,我能想到的
1)使用DB指数(JDBC目录) - 在投票站不知道和缺点 2)使用RAMDirectory索引 - 不确定更新策略。 3)使用文件索引 - 不能想到可靠的设计来在各种物理盒子之间构建和传播文件基础索引。
想知道正确的索引设置策略的想法/建议。
查询结果中显示的更新延迟是可以接受的吗? – 2012-01-30 22:44:27
我们在等待时间方面很灵活 - 我们应该有好几个小时或更多的时间(如上所述,我们将每天更新一次数据,也许在更新数据后我们要在一个小时左右开始使用数据) – Rushik 2012-01-31 00:53:28