我正在开发一个程序,我需要过滤非拉丁字符的单词和句子。问题是,我发现只有拉丁字符的单词和句子,但我没有找到与拉丁字符和非拉丁字符混合的单词和句子。例如,“你好”是拉丁语字母的单词,我可以使用此代码匹配它:正则表达式拉丁字符过滤器和非拉丁字符过滤器
Match match = Regex.Match(line.Line, @"[^\u0000-\u007F]+", RegexOptions.IgnoreCase);
if (match.Success)
{
line.Line = match.Groups[1].Value;
}
但我没有发现例如与非拉丁文字母的单词或句子的混合:“你好,我是财产以后” 。
此外,有人可以解释什么是RegexOptions.None或RegexOptions.IgnoreCase和他们的立场?
我一直认为'àèéìòù'是拉丁文...... – xanatos
而且正则表达式**不会**找到'Hello',因为它只能找到> 0x7F的字符,所以它会抛出一个'ø ' – xanatos
@xanatos确实。 Unicode将è描述为拉丁文小写字母E WITH GRAVE。所以,BinaryTie,你想要包含还是排除这样的拉丁字符? –