我想索引大约300万个solr文本文档。这些文件中大约1/3是电子邮件,其中包含大约1-5段文字。剩下的2/3文件每句只有几句话。优化Lucid/Solr来索引大型文本文档
它需要Lucid/Solr将近1小时才能完全索引正在处理的整个数据集。我试图找到优化这个方法。我已经设置了Lucid/Solr来只提交每100,000个文件,并且它一次对50,000个文件的批量文件进行索引。内存不再是一个问题,因为批处理会一直保持在1GB左右的内存。
整个数据集最初都必须编入索引。这就像一个旧系统必须加载到一个新系统,所以数据必须被索引,并且需要尽可能快,但是我不确定要优化这个时间需要考虑哪些领域。
我在想,也许有很多像“这,一个,因为,应该,如果......”这样的小词汇造成了很多开销并且只是“噪音”字。我很好奇,如果我将它们切断,如果它会大大加快索引时间。我一直在看Lucid文档一段时间,但我似乎无法找到一种方法来指定什么词不索引。我遇到了“停止列表”一词,但没有多过提及它。
是否有其他方法可以使这种索引变得更快,或者我只是坚持1小时索引时间?
感谢您的回复。你是否碰巧有你的基准测试数据,将索引索引时间与斯芬克斯索引时间进行比较?想知道是否真的值得我的时间来加快索引时间的调查。虽然索引时间对我的应用程序非常重要,但由于其他原因,我必须使用solr。 –