Q

对于相同的UTF-8字符，编码结果不同

2017-02-07 70 views 0 likes

0

一个编码方案给出ã as a%CC%83，另一个给出ã as %C3%a3。对于相同的UTF-8字符，编码结果不同

这两个有什么区别？我正在调试这个，发现a%CC%83实际上是2个字符。一个用于~这是%CC%83和一个用于a。但是，如何获得该编码？

2017-02-07 Vivek Vardhan

A

回答

1

这是正常的行为。在Unicode中，相同的符号可以编码为单个字符或组成两个或更多字符。

https://en.wikipedia.org/wiki/Precomposed_character

2017-02-07 11:39:27

+0

但是，组成一个不适合我们。如何禁用该功能。我只需要编码为'单个字符' –

+0

@VivekVardhan，你使用什么编程语言？您需要执行Unicode标准化来预编码字符，但请注意，并非所有分解字符都具有预编码字符。 –

+0

我们正在以这种方式获取来自Android应用的请求。并且对Lucene的查询不会给出合成编码的结果，但会给出正常编码（单字符编码）的正确结果，但是对于相同的ios发送单字符编码值 –

相关问题