简单聊下Unicode和UTF-8

今晚听同事分享提到这个，简单总结下。

## Unicode字符集
Unicode的出现是因为ASCII等其他编码码不够用了，比如ASCII是英语为母语的人发明的，只要一个字节8位就能够表示26个英文字母了，但是当跨区域进行信息交流的时候，尤其是Internet的出现，除了“A”,“B”,“C"，还有“你”，“我”，“他”需要表示，一个字节8位显然不够用，够因此Unicode就被发明出来，Unicode的最大码位0x10FFFF，有21位。中文对应的Unicode编码见http://www.chi2ko.com/tool/CJK.htm

## UTF-8字符编码
Unicode只是给这世界上每个字符规定了一个统一的二进制编号，并没有规定程序该如何去存储和解析。

可以说UTF-8是Unicode实现方式之一，它的规则如下：
1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

Unicode编码(十六进制)	UTF-8 字节流(二进制)
000000 - 00007F	0xxxxxxx
000080 - 0007FF	110xxxxx 10xxxxxx
000800 - 00FFFF	1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

可以看到最多一共有21个x，所以刚好能够表示Unicode的最大的码位。

##大端(BE)和小端(LE)
考虑4个字节的16进制表示ox12345678，计算机都是以字节为单位存储数据的，因此内存地址空间从低到高被挖成一个个“坑”，一个萝卜一个坑，那么相邻的萝卜之间自然就有顺序的问题。文字说明太抽象，直接看图理解。

大端跟我们平时的书写习惯一致，比较好理解，记住大端就可以了，我们平时说的网络字节顺序也是指大端，至于小端就让它见鬼去吧。

实在要文字说明理解的话，可以这么来：大端可以认为是“高位在尾端”（大->高），“高位”指的是我们书写时的高位，比如1024,个十百千,1是高位，“尾端”指的是内存空间中低地址一端，所以1存储在低地址空间，只不过计算机是以一个字节为单位的。反之小端就是“低位在尾端”（小->低）了。

## BOM
BOM(Byte Order Mark)是用来区分字节序列和编码方式的（UTF-8，UTF-16，UTF-32）。就是让编辑器或程序读到前面几个字节就知道后面该以哪种编码方式来解析，8/16/32是指以多少位作为编码单位的，依次就是1/2/4个字节，因为UTF-8是以单个字节作为编码单位的所以其实没有必要指定它的字节序列，所以UTF-8有BOM和无BOM的两种。

UTF编码	Byte Order Mark (BOM)
UTF-8 without BOM	无
UTF-8 with BOM	EF BB BF
UTF-16LE	FF FE
UTF-16BE	FE FF
UTF-32LE	FF FE 00 00
UTF-32BE	00 00 FE FF


## 延伸阅读
Unicode字符平面映射：

http://zh.wikipedia.org/wiki/Unicode%E5%AD%97%E7%AC%A6%E5%B9%B3%E9%9D%A2%E6%98%A0%E5%B0%84#.E5.9F.BA.E6.9C.AC.E5.A4.9A.E6.96.87.E7.A7.8D.E5.B9.B3.E9.9D.A2

  [1]: http://images.cnitblog.com/blog/288950/201411/192303551093399.png

时间： 2024-10-27 05:28:19

简单聊下Unicode和UTF-8的相关文章

简单聊下IO复用

没图,不分析API Java中IO API的发展:Socket -> SocketChannel -> AsynchronousSocketChannelServerSocket -> ServerSocketChannel -> AsynchronousServerSocketChannel 同步/阻塞 -> 同步/非阻塞(多路复用) -> 异步想简单聊下多路复用.多路复用需要配合Reactor模式,前者解决技术上的问题,后者解决软件工程的问题. 技术上的问题,是将

jQuery实现简单的下拉可输入组合框

[写在前面的话]网站上很多用各种插件,比如依赖bootstrap的bootstrap-select插件等.虽然这些框架可以实现很多功能,但因为在实际项目中,可能只会用到其中的某个功能,若是一概引入,会导致整个js加载过于笨重.比如前面提到的bootstrap-select插件,在不压缩的情况下,达到300多k.因此,为了实现一个可填写的下拉框有点得不偿失. 基于这种原因,于是私下用jquery写了一个比较简单的下拉可填写组合框. CSS code: 1 .container{ 2 margin:

[C#] 只是想简单说下特性

只是想简单说下特性 [博主]反骨仔 [原文地址]http://www.cnblogs.com/liqingwen/p/5911289.html 目录说说特性一.特性简介特性提供功能强大的方法,用以将元数据或声明信息与代码(程序集.类型.方法.属性等)相关联.特性与程序实体关联后,即可在运行时使用名为“反射”的技术查询特性. 特性具有以下属性: (1)特性可向程序中添加元数据.元数据是有关在程序中定义的类型的信息.所有的 .NET 程序集都包含指定的一组元数据,这些元数据描述在程序集中定义的

Example017简单的下拉框

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>简单的下拉框</title> <style> * { padding: 0; margin: 0; } .main { width: 1200px; height: 300px; margin: 0 auto; } h3 { margin-lef

Javascript实现简单的下拉二级菜单

在线演示;http://jsfiddle.net/Web_Code/ThhbG/embedded/result/ <span style="font-size:14px;"><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <

jsp简单练习-简单的下拉表单

<%@ page contentType="text/html; charset=gb2312" %> <html> <body> <form name="form1" action="SwitchApp.jsp" method="post"> 请选择一种颜色: <select name="ys"> <option value="r

在AJAX里使用【 XML 】返回数据类型实现简单的下拉菜单数据

在AJAX里使用XML返回数据类型实现简单的下拉菜单数据 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <

聊下git pull --rebase

有一种场景是经常发生的. 大家都基于develop拉出分支进行并行开发,这里的分支可能是多到数十个.然后彼此在进行自己的逻辑编写,时间可能需要几天或者几周.在这期间你可能需要时不时的需要pull下远程develop分支上的同事的提交.这是个好的习惯,这样下去就可以避免你在一个无用的代码上进行长期的开发,回头来看这些代码不是新的代码.甚至是会面临很多冲突需要解决,而这个时候你可能还需要对冲突的部分代码进行测试回归,这就很麻烦了. 那么我们来看一下你在pull时候需要习惯性的加上-rebase参数,

在AJAX里使用【 JSON 】返回数据类型实现简单的下拉菜单数据

在AJAX里使用JSON返回数据类型实现简单的下拉菜单数据 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> &l