我从不同的网站抓取网页,他们有不同的编码。的编码中的样品,我得到是 -在python中将任何编码转换为utf8?
- 中文
- TIS-620
- UTF-16LE
- SHIFT_JIS
- EUC-JP
- MacCyrillic
- KOI8-R
除了更常见的编码。我可以使用上面的编码解码网页的unicode源代码。
我的问题是这样的:我想将所有的文件存储为utf8。如果我使用utf8编码unicode源代码,它是否适用于所有网页? utf8是否支持所有的unicode代码点?
我从不同的网站抓取网页,他们有不同的编码。的编码中的样品,我得到是 -在python中将任何编码转换为utf8?
除了更常见的编码。我可以使用上面的编码解码网页的unicode源代码。
我的问题是这样的:我想将所有的文件存储为utf8。如果我使用utf8编码unicode源代码,它是否适用于所有网页? utf8是否支持所有的unicode代码点?
短而甜,........是的!
是的,UTF-8只不过是一个以字节为单位存储整数的方案,这样整数越小占用的字节越少。结果是小于128的值被存储在一个字节中,所以ASCII仍然是ASCII。 UTF-8可以表示所有Unicode码点。
名称的“UTF”部分代表Unicode转换格式:任何“UTF -...”编码都可以确实存储所有Unicode字符。 – bobince