在Hadoop上运行Lucene/Solr的最佳方式是什么？

我们在具有1TB EBS卷的Amazon Web Services EC2实例上运行Solr以存储索引，以便我们可以使用相同（只读）索引轻松启动其他服务器。但是，我们的指数很快就会超过1TB，而且我并不想处理多个EBS交易量以保持指数。另外，重新生成索引非常慢。我希望将索引生成 - 也许托管 - 转移到Hadoop，最好是迁移到亚马逊的Elastic MapReduce，尽管如果需要的话我可以设置单独的Hadoop服务器。我们使用RightScale，因此他们的ServerTemplates库可供我们使用。在Hadoop上运行Lucene/Solr的最佳方式是什么？

什么是开始在Hadoop上使用Lucene/Solr的最佳地点？

来源

2011-06-01 Joe Emison

你看过Katta（http://katta.sourceforge.net/）吗？它提供了分片和分发Lucene indecies的手段。 – 2011-06-02 13:41:16

我真的很喜欢我的索引创建速度加快，而不仅仅是交付。它看起来像Katta会帮助交付，但不是创造？ – 2011-06-03 01:58:53

看看ElasticSearch。您可以从Hadoop索引到ElasticSearch以进行批量加载。 Infochimps已经开源了一个名为Wonderdog的ElasticSearch批量索引器，您可以查看它以获取概念证明。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

这是云友好（详见发现云计算AWS插件），并且可以通过增加节点来保存索引比例放大/缩小。

来源

2011-06-04 01:55:12

您的索引是否分割？您可以分割索引并在几个实例之间分配碎片。

来源

2011-07-10 13:28:29

在Hadoop上运行Lucene/Solr的最佳方式是什么？

回答

相关问题