2011-08-07 52 views
2

我从不同的网站抓取网页,他们有不同的编码。的编码中的样品,我得到是 -在python中将任何编码转换为utf8?

  • 中文
  • TIS-620
  • UTF-16LE
  • SHIFT_JIS
  • EUC-JP
  • MacCyrillic
  • KOI8-R

除了更常见的编码。我可以使用上面的编码解码网页的unicode源代码。

我的问题是这样的:我想将所有的文件存储为utf8。如果我使用utf8编码unicode源代码,它是否适用于所有网页? utf8是否支持所有的unicode代码点?

+0

名称的“UTF”部分代表Unicode转换格式:任何“UTF -...”编码都可以确实存储所有Unicode字符。 – bobince

回答

1

短而甜,........是的!

4

是的,UTF-8只不过是一个以字节为单位存储整数的方案,这样整数越小占用的字节越少。结果是小于128的值被存储在一个字节中,所以ASCII仍然是ASCII。 UTF-8可以表示所有Unicode码点。