我正在寻找的是一个操作,它会“部分折叠”我的结果,以便将某个字段的文档分组,删除可能被视为接近重复的内容,但缺少该字段的所有文档不受影响该领域崩溃。 (具体来说,所讨论的文档是讨论论坛中的单个帖子,而论坛又是以线程组织的,由于论坛每页显示一个完整的线程,因此同一线程中的多个匹配实质上是重复的如果用户坚持这个主题,这是非常不可避免的,然而,还有很多其他类型的文档,这些文档的折叠没有任何意义。)Solr分组:我可以改变缺失字段的行为吗?
使用Solr 3.5,我得到的最接近的是
...&group=true&group.main=true&group.field=threadid&group.limit=3
但似乎Solr正在治疗“miss ing“作为价值,并将所有其他内容压缩为3次 - 我希望它将缺失值视为”独特“。
这样做还是应该考虑修改模式设计?
听起来很合理。我将在索引时将我的'uniqueKey'的值复制到'threadid',并评估性能和可维护性。另一件好事是'threadid'可以重用于其他类型的需要删除/减少重复副本的文档。不过,重新命名它可能很有意义。谢谢! –