用于文本规范化的Java库

是的，我查了一下。默认情况下，它不会做我需要的。我看过Normalizer2（http://icu-project.org/apiref/icu4j/com/ibm/icu/text/Normalizer2.html），它可以配置，但它不是简单的任务。 – valodzka 2010-11-05 23:04:24

您的具体要求是有点模糊，但我想你想的是做什么Normalizer做的事情，但随着功能的某些Unicode代码点一概而论一个字符 - 类似utf8proc。

我会去一个2步的方法：

首先使用Normalizer.normalize创造一切（去）组成你想
然后通过结果的代码点迭代，并更换统一字符你喜欢它的方式。

两者都应该是直截了当的。对于2，如果您正在处理基本多语言窗格以外的字符，则使用appropriate algorithm for doing so遍历代码点。如果您只使用BMP代码点，则只需遍历字符。

对于您想一概而论，该映射ununified代码点创建一个替换数据结构中的字符 - >统一代码点。 Map<Character, Character>或Map<Integer, Integer>想到这一点。根据您的喜好填充替换地图，例如通过从utf8proc的lump.txt和character categories的来源获取信息。

Map<Character, Character> LUMP; 

static { 
    LUMP = new HashMap<Character, Character>(); 
    LUMP.put('\u2216', '\\'); // set minus 
    LUMP.put('\u007C', '|'); // divides 
    // ... 
}

创建一个新的StringBuilder或类似的大小与标准化字符串相似。在迭代代码点时，检查LUMP.get(codePoint)是否为非空值。在这种情况下，添加返回的值，否则将代码点添加到StringBuilder。应该是这样的。

如果需要，您可以支持从配置中加载LUMP内容的方式，例如，从Properties对象。

来源

2010-11-08 12:04:55

用于文本规范化的Java库

回答

相关问题