制定Unicode编码标准的组织有两个,一个是国际标准化组织ISO,一个是多语言软件制造商组成的统一码联盟。
通用字符集UCS(Universal Character Set)是由ISO制定的编码方案,UCS-2用2个字节编码,UCS-4用4个字节编码。
unicode转换格式UTF(Unicode Transformation Format)是根据Unicode字符集按照一定转换规则在计算机上实现的编码方案。
UTF-8是可变长度字符编码,与ASCII码相对应的部分(0x00~0x7F之间的字符)依旧是1个字节代表1个字符,并且规则一致。
UTF-16的大部分字符用2字节存储。在没有辅助平面字符前,UTF-16和UCS-2所指的是同一个意思。但当引入辅助平面字符后,就称为UTF-16了。
注:UTF-8、UTF-16等都是字符编码,虽然和Unicode有关系,但它们不是Unicode编码。
注:Windows平台上的记事本的“另存为”弹出框里的“编码”选项解释如下:
- ANSI是默认的编码方式。在英文Windows操作系统中,ANSI编码代表ASCII编码;在简体中文Windows操作系统中,ANSI编码代表GBK编码;在繁体中文Windows操作系统中,ANSI编码代表Big5编码;在日文Windows操作系统中,ANSI编码代表Shift_JIS编码。
- Unicode指的是UCS-2编码,采用小端模式。
- Unicode big endian也是UCS-2编码,采用大端模式。
- UTF-8,自查,不解释。
时间: 2024-10-14 13:58:25