2013-10-04 45 views
1

我正在尝试不同的基础架构方法,我很惊讶地发现以下内容。指数大小400%+增长:正常Solr实例与SolrCloud

我已使用DataImportHandler通过sql查询在Solr4.4中对1.3M文档(所有字段进行了索引,存储和一些瓦解分析)编入索引。

Approach1:单Solr的实例

索引时间:〜10分钟

大小 “索引” 文件夹中的:1.6GB

Approach2: SolrCloud有两个索引片。

索引时间:〜11分钟面积 “指标” 文件夹的

:1.6GB + 1.5GB = 3.1GB

每个索引切片具有0.65M左右的文件添加到原来的总计数预计。

Approach3:SolrCloud具有两个碎片(1个前导+ 1个复制品)

索引时间:〜30分钟

的 “索引” 的文件夹大小:组长(4.6GB),副本( 3.8GB)= 8.4GB(预计这是1.6GB * 2,但它是〜1.6GB * 5.25)

我跟着SolrCloud tutorial

我意识到,有一些元数据(请纠正我,如果我错了),像术语词典等必须存在于所有实例中,而不管切片(分区)或分片(复制)。

然而,方法2和3在最终的指数大小中显示剧烈增长(400%)。

请您提供见解。

回答

1

从总体索引尺寸来看,我认为你的文档很小。这就是为什么术语词典的相对大小很大 - 对于这个数量的文件它非常相似,所以你有两次。所以1.6变成3.1Gb。

至于方法3 - 你确定它是一个干净的测试?你有没有把事务日志包含进大小?如果优化会发生什么? 您可以通过检查索引文件扩展名来检查究竟是什么增加了大小。 请参阅: https://lucene.apache.org/core/4_2_0/core/org/apache/lucene/codecs/lucene42/package-summary.html#file-names

相关问题