2011-06-01 60 views
3

我们在具有1TB EBS卷的Amazon Web Services EC2实例上运行Solr以存储索引,以便我们可以使用相同(只读)索引轻松启动其他服务器。但是,我们的指数很快就会超过1TB,而且我并不想处理多个EBS交易量以保持指数。另外,重新生成索引非常慢。我希望将索引生成 - 也许托管 - 转移到Hadoop,最好是迁移到亚马逊的Elastic MapReduce,尽管如果需要的话我可以设置单独的Hadoop服务器。我们使用RightScale,因此他们的ServerTemplates库可供我们使用。在Hadoop上运行Lucene/Solr的最佳方式是什么?

什么是开始在Hadoop上使用Lucene/Solr的最佳地点?

+0

你看过Katta(http://katta.sourceforge.net/)吗?它提供了分片和分发Lucene indecies的手段。 – 2011-06-02 13:41:16

+0

我真的很喜欢我的索引创建速度加快,而不仅仅是交付。它看起来像Katta会帮助交付,但不是创造? – 2011-06-03 01:58:53

回答

1

看看ElasticSearch。您可以从Hadoop索引到ElasticSearch以进行批量加载。 Infochimps已经开源了一个名为Wonderdog的ElasticSearch批量索引器,您可以查看它以获取概念证明。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

这是云友好(详见发现云计算AWS插件),并且可以通过增加节点来保存索引比例放大/缩小。

1

您的索引是否分割?您可以分割索引并在几个实例之间分配碎片。

相关问题