2009-12-30 92 views
4

我使用Zend Lucene来索引瑞典文本。问题在于lucene在瑞典字符åäö上标记了单词。例如,单词“världens”在索引中变成两个单词“v”和“ldens”。Zend Lucene - 标记化瑞典语字符

有没有一种方法可以添加zend lucene应该接受并且不会标记的字符?

回答

5

使用UTF-8 compatible text analyzer代替default text analyzer进行标记。请注意,这需要使用UTF-8支持编译PHP的PCRE(与Perl兼容的正则表达式)库(默认情况下,如果您使用与PHP捆绑在一起的PCRE库,但在使用共享库时可能未启用)。对于不区分大小写的UTF-8兼容分析仪版本,您还需要启用mbstring扩展。