Unicode、GB2312、UTF-8傻傻分不清？

什么是编码？

事实上计算机只认识 0 和 1，然而我们却可以通过计算机来显示文本，这就是靠编码实现的。编码其实就是约定的一个协议，比如 ASCII 编码约定了大写字母 A 对应十进制数 65，那么在读取一个字符串的时候，看到 65，计算机就知道这是大写字母 A 的意思。

GB2312

由于计算机是美国人发明的，所以这个 ASCII 编码设计时只采用 1 个字节存储（事实上只用了 7 位，1 个字节有 8 位），包含了大小写英文字母、数字和一些符号。

但是计算机在全世界普及之后，ASCII 编码就成了一个瓶颈，因为 1 个字节是完全不足以容纳各国语言的。比如汉字光常用字就有好几千个，至少需要 2 个字节才足以存放，所以后来中国制订了 GB2312 编码，用于对汉字进行编码。

Unicode

随着各国都制订了自己的标准，不同的标准放在一起，就难免出现冲突。这也正是为什么最初的计算机总是容易看到乱码的现象。

为了解决这个问题，Unicode 编码应运而生。Unicode 组织的想法最初也很简单：创建一个足够大的编码，将所有国家的编码都加进来，进行统一标准。

UTF-8

UTF-8 编码是 Unicode的一种实现方式，它是可变长编码。当你的文本是 ASCII 编码的字符时，它用 1 个字节存放；而当你的文本是其它 Unicode 字符的情况，它将按一定算法转换，每个字符使用 1~3 个字节存放，就有效节省了空间。