字符编码

ASCII码

使用 7 位二进制数(一个字节的低 7 位)表示一个字符,最多能够表示 128 个不同的字符。

仅能够表示英文

GBK码

GB2312字符集收录了汉字,GBK码是GB2313的拓展。

在 GBK 的编码方案中,ASCII 字符使用一个字节表示,汉字使用两个字节表示。

Unicode码

国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。

每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点

UTF-8编码

一种可变长度的编码,使用1到4字节来表示一个字符,根据字符的复杂性而变。

  • ASCII字符1字节

  • 拉丁字母和希腊字母2字节

  • 常用的中文字符3字节

  • 其他的一些生僻字符4字节。

UTF-8编码是Unicode码的一种实现方式

UTF-16编码

使用2或4字节来表示一个字符。

UTF-32编码

每个字符都使用4字节。。