2009-10-08 53 views
1

我运行FAST ESP服务器上的搜索应用程序。现在我遇到了字符规范化的问题。FAST ESP字符规范化

我要的是寻找“伍尔特”并获得“伍尔特”一炮打响。

我试过配置在ESP以下的/ etc /标记者/ tokenization.xml

<normalizationlist name="German to Norwegian"> 
    <normalization description="German u with diaeresis, to Norwegian u"> 
     <input>x75</input> 
     <output>xFC</output> 
     <output>x75</output> 
    </normalization> 
    </normalizationlist> 

但赛道,这把所有u到U,这是无用的。

如何配置的正确方法?

回答

1

解决方法是将每个“特殊字符”归一化为相同的“正常字符”;

ö - > 0 ø - > 0 A - >一个 A - >一个 AE - >一

这是有点费时,但它的工程!

0

阅读无所谓高级物流指南。它包含了关于字符标准化的一章。当您按照指南中的步骤操作时,所有特殊字符将被视为普通字符。因此,寻找über的结果与寻找优步时的结果相同。

+2

你不是指高级语言学指南? – darasd 2012-02-15 16:40:54

0

此外,您可以安装MS支持提供的自定义字典,然后可以提供每种语言的字典。所以,如果你安装了德语,那么搜索引擎就会明白你想搜索什么,用您的意思是否功能。安装完字典后,您可以启用搜索查询。另外,不要忘记正确设置搜索模式并使用正确的字符编码来支持多语言。如果集合中的文档不正确的字符编码索引的任何努力,你在做标记化和查询结束是没用的。