字符编码历程

date

Mar 28, 2022

slug

char-encode

status

Published

tags

基础知识

summary

重新梳理和记录字符编码相关的内容。

type

Post

名词解释

ASCII: American Standard Code for Information Interchange 美国信息交换标准代码
Unicode: 统一码、万国码
UTF-8: 8-bit Unicode Transformation Format 针对 Unicode 的可变长度字符编码
字符集: 字符（文字、标点符号、数字等）的集合
编码: 将字符集转换为二进制码
解码: 将二进制转换为字符

计算机的最小存储单元为二进制位，只能存储 0 或 1，用来存储人类的符号就需要一层 映射关系。

映射关系最初使用的 ASCII 单字节 编码规则，但由于计算机的普及，单字节字符映射的数量以无法满足需求。

后来中国发布了一套有关汉字字符集编码 GB-2312-1980 , 用俩个字节对字符进行编码，并兼容 ASCII。

但每个国家都为自己的语言制定字符集编码时，当装有不同编码系统的计算机之间通信就会乱码现象。

为了解决乱码问题，ISO 国际标准化组织提出 Unicode 字符集编码的新标准，该标准涵盖了世界上所有的文字和符号，也就是每一个字符都有一个唯一的二进制编码。

那么 UTF-8、UTF-16 编码方案又是什么呢？首先要区分现代五层编码模型中的俩个重要概念：

字符代码：字符在字符集中的序号

字符编码：字符在磁盘中的二进制 比特序列

比如字符 A 在 ASCII 编码中的的 字符代码 为 65，在 字符编码 中是 01000001 十进制也是 65，在 GB2312 中俩者也是一致的。

但在 Unicode 中使用的 UCS-4 ，每个字符都是用 4 个字节来表示，如果还是采用上述一相致的编码方式，则会造成储存资源的浪费，因此需要在 字符代码和字符编码间进行再编码，UTF-8 就是针对 不同范围 的字符代码转化成 不同长度 的字符编码，同时编码也是以字节为单位储存，而 UTF-16 的区别在于的 二进制位数，比如 A 在 UTF-8 可变长编码后存储一个字节就可以表示，在 UTF-16 编码下就需要俩个字节。

总结：在全球互联大背景下，Unicode 字符集和编码方式解决了跨语言、跨平台的交流问题，同时 UTF-8 等编码又有效的节约了 储存空间 和 传输带宽，因为此受到了极大的推广和应用。

flowchart TD
UTF[UTF-8/UTF-16 可变长编码]
ASCII[ASCII 英文编码]
ISO8859[ISO 国际标准化组织]
Unicode[Unicode 统一码]
subgraph 字符编码发展史
  ASCII --> chinese
	ASCII --> other
	chinese --> ISO8859
	other --> ISO8859
	ISO8859 --> Unicode
	Unicode --> UTF
end
subgraph chinese[中文编码]
	GB2372
	GBK
	GB78030
end
subgraph other[其他语言编码]
	...
end

问题：为什么有些字符长度为 2 ？

由于 JS 字符串是 UTF-16 可 变长编码 的字符串，一个字符串可能用 1 个或 2 个 16bit 来表示一个字符串，也就是使用 UTF-16 编码所用的 16bit 所占用的个数等于该字符串的长度。

参考：

https://www.zhihu.com/question/57461614

https://developer.mozilla.org/zh-CN/docs/Web/API/DOMString/Binary

https://developer.mozilla.org/en-US/docs/Web/API/DOMString

https://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html