含有平假名和片假名Unicode字符的样本串:为什么这个Python RegEx管道没有选出两个unicode范围?
myString = u"Eliminate ひらがな non-alphabetic カタカナ characters"
模式匹配两个范围,根据: http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml
myPattern = u"[\u3041-\u309f]*|[\u30a0-\u30ff]*"
简单的Python正则表达式替换功能
import re
print re.sub(myPattern, "", myString)
退货:
Eliminate non-alphabetic カタカナ characters
我能得到它的唯一方法是如果我分别使用两个范围,一个接一个。什么是阻止这个RegEx简单地选择| -pipe的两侧?
但它会更慢(虽然不多),而且比单个类更冗长。 – tripleee