这更加添Pietzcker的答案评论,但在评论呈现代码是尴尬...以下是使用XRexExp包的一个简单的例子:
<p id=orig>Bundespräsident/ß+ð/ə¿α!</p>
<p id=new></p>
<script src="http://cdnjs.cloudflare.com/ajax/libs/xregexp/2.0.0/xregexp-min.js">
</script>
<script src="http://xregexp.com/addons/unicode/unicode-base.js">
</script>
<script>
var regex = new XRegExp("\\P{L}+", "g");
var string = document.getElementById('orig').innerHTML;
string = XRegExp.replace(string, regex, "");
document.getElementById('new').innerHTML = string;
</script>
供生产使用,你可能会想要下载的基础包和Unicode插件的一些版本,并在您的服务器上。
注意:代码检查未在Unicode中被分类为字母(字母)的字符。我想这与你所说的“单词性格”是一致的,尽管自然语言中的单词可能包含连字符,撇号和其他非字母。
请注意将字符添加到Unicode中,并且字符的类别可能(很少)会更改。尽管如此,该软件包一直保持良好状态;它对应于Unicode 6.1(版本6.2已经出来,但它没有新的字母)。
Ø是各种语言(例如丹麦语)的字母:) –
类似:[this](http://stackoverflow.com/questions/2392194/how-to-match-the-international-alphabet-english -az-non-english-with-a-regu)问题。 javascript正则表达式没有任何本地的unicode感知的匹配器 –