指数大小400％+增长：正常Solr实例与SolrCloud

我正在尝试不同的基础架构方法，我很惊讶地发现以下内容。指数大小400％+增长：正常Solr实例与SolrCloud

我已使用DataImportHandler通过sql查询在Solr4.4中对1.3M文档（所有字段进行了索引，存储和一些瓦解分析）编入索引。

Approach1：单Solr的实例

索引时间：〜10分钟

大小 “索引” 文件夹中的：1.6GB

Approach2： SolrCloud有两个索引片。

索引时间：〜11分钟面积 “指标” 文件夹的

：1.6GB + 1.5GB = 3.1GB

每个索引切片具有0.65M左右的文件添加到原来的总计数预计。

Approach3：SolrCloud具有两个碎片（1个前导+ 1个复制品）

索引时间：〜30分钟

的 “索引” 的文件夹大小：组长（4.6GB），副本（ 3.8GB）= 8.4GB（预计这是1.6GB * 2，但它是〜1.6GB * 5.25）

我意识到，有一些元数据（请纠正我，如果我错了），像术语词典等必须存在于所有实例中，而不管切片（分区）或分片（复制）。

然而，方法2和3在最终的指数大小中显示剧烈增长（400％）。

请您提供见解。

2013-10-04 phani

从总体索引尺寸来看，我认为你的文档很小。这就是为什么术语词典的相对大小很大 - 对于这个数量的文件它非常相似，所以你有两次。所以1.6变成3.1Gb。

至于方法3 - 你确定它是一个干净的测试？你有没有把事务日志包含进大小？如果优化会发生什么？您可以通过检查索引文件扩展名来检查究竟是什么增加了大小。请参阅： https://lucene.apache.org/core/4_2_0/core/org/apache/lucene/codecs/lucene42/package-summary.html#file-names

2013-10-19 17:44:31 lexk

回答