我使用的是lucene 4.4。当我尝试使用木瓦,WordDelimiter和停用词过滤工厂添加文档时,出现下列异常:Lucene的startOffSet应该大于endOffSet的错误
java.lang.IllegalArgumentException:startOffset必须是非负数,并且endOffset必须> = startOffset,startOffset = 36945 ,endOffset = 36943 在org.apache.lucene.analysis.tokenattributes.OffsetAttributeImpl.setOffset(OffsetAttributeImpl.java:45) 在org.apache.lucene.analysis.shingle.ShingleFilter.incrementToken(ShingleFilter.java:323)
这个例外不适用于所有doucments。这些是针对特定文件的。任何人都有想法吗?
我也使用WordDelimiterFilterFactory。这会导致问题吗? – ak87
该问题已得到解决。我刚刚改变了过滤器工厂的顺序。无论如何感谢您的帮助。从你的答案中学到了一些东西。所以upvote。 – ak87
除非我的理解不正确,只是交换两者的顺序(尽管它可能不会导致任何错误),与完全移除SynonymFilter的效果不同,因为Synonymfilter的目的是在合并之前查看令牌成带状疱疹? – femtoRgon