1
我使用Lucene有以下过滤器链:如何标准化Lucene中的未知字符?
StandardFilter > LowerCaseFilter > GermanNormalizationFilter > ASCIIFoldingFilter
哪些额外的过滤器我必须使用任何未知的字符转换为拉丁字母? 例如,像Кадашевская
这样的俄语字符串,我希望它们或者被转换为拉丁字母等价物,或者将它们移除。
哪个过滤器适用于此目的?
目前,过滤器链标准化的字符串:我相信ICUTransformFilter
将是一个不错的选择???????????