我正在尝试不同的基础架构方法,我很惊讶地发现以下内容。指数大小400%+增长:正常Solr实例与SolrCloud
我已使用DataImportHandler通过sql查询在Solr4.4中对1.3M文档(所有字段进行了索引,存储和一些瓦解分析)编入索引。
Approach1:单Solr的实例
索引时间:〜10分钟
大小 “索引” 文件夹中的:1.6GB
Approach2: SolrCloud有两个索引片。
索引时间:〜11分钟面积 “指标” 文件夹的
:1.6GB + 1.5GB = 3.1GB
每个索引切片具有0.65M左右的文件添加到原来的总计数预计。
Approach3:SolrCloud具有两个碎片(1个前导+ 1个复制品)
索引时间:〜30分钟
的 “索引” 的文件夹大小:组长(4.6GB),副本( 3.8GB)= 8.4GB(预计这是1.6GB * 2,但它是〜1.6GB * 5.25)
我意识到,有一些元数据(请纠正我,如果我错了),像术语词典等必须存在于所有实例中,而不管切片(分区)或分片(复制)。
然而,方法2和3在最终的指数大小中显示剧烈增长(400%)。
请您提供见解。