2009-11-19 47 views
1

我有索引数据库的Solr。在我的数据库中,所有数据都是拉脱维亚语。问题是,我需要能够搜索单词里加,就好像它是单词里加。当然,我可以定义同义词 - 里加=里加,但我可以定义,那个字母ī是字母i?我读了一些关于solr.ISOLatin1AccentFilterFactory,但据我了解,这不是UTF-8编码,对吧?建议?Solr - 字符替换

回答

2

使用带有索引和查询的PatternReplaceFilterFactory。似乎是正确的。

1

ISOLatin1AccentFilterFactory正是您在寻找的内容......只要拉丁语-1字符集中的重音EXISTS(UTF-8的低7位与拉丁-1相同)即可。您提到的ī似乎不存在于ISO-8859-1中,因此ISOLatin1AccentFilterFactory在此特定情况下不起作用。我仍然建议您除了使用PatternReplaceFilterFactory处理的任何异常外,还使用ISOLatin1AccentFilterFactory,因为可能有一些拉脱维亚字符会帮助它(假设,我没有拉脱维亚的经验)

仅供参考,我确实尝试过使用ISOLatin1AccentFilterFactory来对付我的Solr设置,并没有帮助这种情况。