中文在unicode中的编码范围

以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围，但写的不是很详细，今天再次研究了下unicode，并给出详细的unicode取值范围。

本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版

对于这次研究的unicode把编码分为以下几个平面(英文中是plane，可以认为就是不同的区位)

Unicode可以逻辑分为17平面（Plane），每个平面拥有65536（ = 216）个代码点，虽然目前只有少数平面被使用。

平面0 (0000–FFFF): 基本多文种平面（Basic Multilingual Plane, BMP）.
平面1 (10000–1FFFF): 多文种补充平面（Supplementary Multilingual Plane, SMP）.
平面2 (20000–2FFFF): 表意文字补充平面（Supplementary Ideographic Plane, SIP）.
平面3 (30000–3FFFF): 表意文字第三平面（Tertiary Ideographic Plane, TIP）.
平面4 to 13 (40000–DFFFF)尚未使用
平面14 (E0000–EFFFF): 特别用途补充平面（Supplementary Special-purpose Plane, SSP）
平面15 (F0000–FFFFF)保留作为私人使用区（Private Use Area, PUA）
平面16 (100000–10FFFF)，保留作为私人使用区（Private Use Area, PUA）

最有用的当然就是BMP平面０了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
unicode基本平面区的编码区间含义

为鉴于Unicode原有的16位空间不足以应用，于是从Unicode 3.1版本开始，设立了16个扩展字码空间，称为辅助平面，
使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
unicode中的几大区间

最后小结下：

１、现在网上大多数用于判断中文字符的是　U+4E00..U+9FA5　这个范围是只是“中日韩统一表意文字”这个区间，但这不是全部，如果要全部包含，则还要他们的扩展集、部首、象形字、注间字母等等;

2E80－A4CF　加上　F900-FAFF　加上　FE30-FE4F

其中　

2E80－A4CF　

包
含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中
日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字
根

F900-FAFF

中日朝兼容表意文字

FE30-FE4F

中日朝兼容形式

所以，一般用4E00－9FA5已经可以，如果要更广，则用2E80－A4CF || F900-FAFF　||　FE30-FE4F

２、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母：FF00-FFEF

３、不要太关心简繁中文的区别，如果要明确非要简体中文可参考unicode中简体中文编码

转载自：

http://www.iteye.com/topic/977671

中文在unicode中的编码范围

时间： 2024-11-06 14:14:40

中文在unicode中的编码范围

中文在unicode中的编码范围的相关文章

C# 中文在URL中的编码

[转载]Unicode中对中文字符的编码

java中的编码问题

【整理】Python中实际上已经得到了正确的Unicode或某种编码的字符，但是看起来或打印出来却是乱码

python中的编码问题：以ascii和unicode为主线

常用中文字体 Unicode 编码

mysql中latin1编码中文转utf8

js中文转Unicode编码与解码

c#将http调用返回额json中的有关中文的unicode转换为中文（转）