Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

上一篇《字符编码发展史5 — UTF-16和UTF-32》我们讲解了UTF-16和UTF-32编码。本篇我们将继续讲解字符编码中的字节序标记(BOM)。

2.3. 第三个阶段 国际化

2.3.2. Unicode的编码方式

2.3.2.5. BOM

1. 什么是BOM?

BOMByte Order Mark的缩写,翻译成中文是:字节序标记,主要用于文本编码中,表示数据存储的字节顺序。

前面我们讲到UTF-16和UTF-32是存在大小端的字节序问题的。以UTF-16为例,要识别一个文件是以大端(Big-endian)字节序还是小端(Little-endian)字节序存储的,就需要有一个标识来进行标记。业界统一的做法是:在文件的开头加入一个特殊的字符来表示,该字符就是U+FEFF,因此BOM也可认为是该字符(U+FEFF)的一个别名。

  • 在UTF-16BE文件中,BOM是0xFE 0xFF
  • 在UTF-16LE文件中,BOM是0xFF 0xFE
  • 在UTF-32BE文件中,BOM是0x00 0x00 0xFE 0xFF
  • 在UTF-32LE文件中,BOM是0xFF 0xFE 0x00 0x00
2. Windows下为什么会有UTF-8和UTF-8BOM?

UTF-8编码本身并不存在字节序的问题,所以UTF-8编码理论上是不需要字节序的。

熟悉Windows的同学应该知道,Windows的“记事本”在保存时可以选择编码方式,编码方式的下拉框里有UTF-8UTF-8 BOM。我们以UTF-8 BOM保存时,文件的开头三个字节是0xEF 0xBB 0xBF,这就是UTF-8 BOM的标识。

记事本保存的编码格式

在VSCode中以Hex Editor方式打开

为什么Windows下为什么有UTF-8 BOM,这个已经无从查证,很可能是Windows历史发展的预留产物,猜测可能是为了标识某个文件是由UTF-8编码方式存储的。

从字符编码的历史发展角度来分析,UTF-16是从UCS-2演变而来的,所以UTF-16的出现早于UTF-8。在ANSI时期,UTF-8并没有广泛普及,Windows下存在多种常用的编码方式。因为.txt文件是一种无格式的纯文本文件,加上BOM标识后可方便软件和程序正确识别是UTF-8编码还是其他编码格式。在Windows11下,我们看到新建的.txt文件,windows的记事本会默认以UTF-8来保存了。

就跨平台的兼容性而言,UTF-8会比UTF-8 BOM更好。

3. 不同编码的字节序总结
编码方式 BOM字节序标识
UTF-8
UTF-8 BOM 0xEF 0xBB 0xBF
UTF-16BE 0xFE 0xFF
UTF-16LE 0xFF 0xFE
UTF-32BE 0x00 0x00 0xFE 0xFF
UTF-32LE 0xFF 0xFE 0x00 0x00

《字符编码发展史》系列已完结

历史文章推荐:

字符编码发展史5 — UTF-16和UTF-32
字符编码发展史4 — Unicode与UTF-8
字符编码发展史3 — GB2312/Big5/GBK/GB18030
字符编码发展史2 — ISO-8859-N
字符编码发展史1 — ASCII和EASCII

推荐阅读
字符编码发展史5 — UTF-16和UTF-32 字符编码发展史5 — UTF-16和UTF-32 字符编码发展史4 — Unicode与UTF-8 字符编码发展史4 — Unicode与UTF-8 字符编码发展史1 — ASCII和EASCII 字符编码发展史1 — ASCII和EASCII

评论