一般斯威夫特是真的智能计数字形集群作为一个单一的字符。如果我想打一个黎巴嫩国旗,例如,我可以将两者结合起来的Unicode字符 U + 1F1F1区域指标符号字母L U + 1F1E7区域指标符号字母B 并预期这是斯威夫特一个字符: let s = "\u{1f1f1}\u{1f1e7}"
assert(s.characters.count == 1)
assert(s.utf16.count
我正在为Unicode文本编写一个词法分析器。许多Unicode字符需要多个代码点(即使在规范组合之后)。例如,tuple(map(ord, unicodedata.normalize('NFC', 'ā́')))评估为(257, 769)。我怎么知道两个角色之间的界限?另外,我想存储文本的非标准化版本。我的输入保证是Unicode。 到目前为止,这是我所: from unicodedata im