算法-字符编码
字符编码
ASCII码
使用 7 位二进制数(一个字节的低 7 位)表示一个字符,最多能够表示 128 个不同的字符。
仅能够表示英文
GBK码
GB2312字符集收录了汉字,GBK码是GB2313的拓展。
在 GBK 的编码方案中,ASCII 字符使用一个字节表示,汉字使用两个字节表示。
Unicode码
国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。
每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点
UTF-8编码
一种可变长度的编码,使用1到4字节来表示一个字符,根据字符的复杂性而变。
-
ASCII字符1字节
-
拉丁字母和希腊字母2字节
-
常用的中文字符3字节
-
其他的一些生僻字符4字节。
UTF-8编码是Unicode码的一种实现方式
UTF-16编码
使用2或4字节来表示一个字符。
UTF-32编码
每个字符都使用4字节。。
评论