这是我第一次进入UTF-8领域。我是IIS管理员,所以我从来没有专门去触摸这个。我试图帮助一位将圣经翻译成非洲语言的传教士,现在需要对大型UTF-8文件进行全球匹配。我们特别为重音字符进行匹配。推荐内置WinXP语言支持UTF-8正则表达式
我们在这里使用的是较旧的XP计算机,所以我在VBS中拼凑了一个快速脚本,知道语言已经安装在他们的盒子上了。玩了几分钟后,VBS正则表达式将每个字符分成2个字符,从而处理UTF-8。要匹配单个â,我的模式是\ u00c3 \ u00a2。这不应该是\ u00e2?
由于我不在我的深处,我以为我会寻求一点指导。它几乎看起来像UTF-8只需要这种双重匹配(并且需要UTF-8)。有人可以告诉我在编码哪个峡谷吗? :-)
下载和安装Perl或Java可能不在此项目的带宽和技术知识范围之内。该工具应该内置。MS Office已安装,因此如果某个库提供特定的支持,VBA是一个选项。 JavaScript也被安装,虽然我不知道什么版本。
感谢
你需要做的是加载UTF-8编码的文件。正则表达式引擎不太可能知道任何有关UTF-8的信息。 – Gabe 2010-12-19 04:22:25
我已验证我可以打开,读取和写入文件。完成后Word将它们打开为UTF-8文件,就像原始文件一样。我非常有信心以UTF-8格式处理它们。我正在使用TristateUseDefault。我尝试强制TristateTrue,但这导致了垃圾。 – codepoke 2010-12-19 04:37:40