字符集、字符编码总结

字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

字符编码:是一套规则,将字符和二进制数据建立映射关系。

按照出现的时间:

1、ASCLL(American Standard Code for Information Interchange):它包含一个字节,128个字符;

2、EASCLL:包含256个字符,它是对ASCALL的扩展。

3、ISO-8859:计算机传到欧洲之后,之前的字符集不够使用了,国际标准化组织对ASCLL做了扩展,类似EASCLL,因为欧洲语言环境复杂,出现了很多子标准,例如ISO-8859-1、ISO-8859-2.....

4、GB2312:当传到亚洲之后,国际化标准也不够用了,256个字符远远满足不了需求,扩展为双字节,16bit。GB2312为中文编码,包含6763个汉字。

天朝专家把那些127号之后的奇异符号们(即EASCII)取消掉,规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到 0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,还把数学符号、罗马希腊的 字母、日文的假名们都编进去了,连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。

5、GBK:就是对GB2312的扩展。

6、Unicode:统一码万国码单一码标准万国码。当计算机传遍全世界的时候,unicode 出现了。Unicode 是字符集,UTF-8、UTF-16、UTF-32是编码方案。Unicode 包含4个字节,32bit。

7、UTF-32(UCS-4):包含4个字节,对Unicode中的每一个字符都使用4个字节,浪费空间;但是也有优点,它可以在字符串中快速定位到指定字符

8、UTF-16:包含2个字节,16bit。因为常用字符不会超过65536,这样可以节省一半的空间,相比UTF-32.对于超过的部分,也有其他方法可以解决。

9、UTF-8:可变长度字节编码,采用1到4个字节来为unicode字符编码。

参考文件:

字符历史:

http://www.jianshu.com/p/bd7a6c508c33

字符详情:

http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html

UTF-8的详细解释:

http://cenalulu.github.io/linux/character-encoding/

时间: 2024-07-31 23:00:23

字符集、字符编码总结的相关文章

MMS彩信字符集(字符编码)

彩信字符集在CharacterSets类中定义 android\frameworks\opt\telephony\src\java\com\google\android\mms\pdu\CharacterSets.java public class CharacterSets { /** * IANA assigned MIB enum numbers. * * From wap-230-wsp-20010705-a.pdf * Any-charset = <Octet 128> * Equi

字符编码【转载】

转载:http://www.techug.com/character-encoding 字符集和字符编码 编程技术2015-3-26TECHUG2条评论 本文将简述字符集,字符编码的概念.以及在遭遇乱码时的一些常用诊断技巧. 背景:字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题.当遇到纷繁复杂的字符集,各种火星文和乱码时,问题的定位往往变得非常困难.本文就将会从原理方面对字符集和编码做个简单的科普介绍,同时也会介绍一些通用的乱码故障定位的方法以方便读者以后能够更从容的定位相关问题.在正式介绍

十分钟搞清字符集和字符编码

本文将简述字符集,字符编码的概念.以及在遭遇乱码时的一些常用诊断技巧. 背景:字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题.当遇到纷繁复杂的字符集,各种火星文和乱码时,问题的定位往往变得非常困难.本文就将会从原理方面对字符集和编码做个简单的科普介绍,同时也会介绍一些通用的乱码故障定位的方法以方便读者以后能够更从容的定位相关问题.在正式介绍之前,先做个小申明:如果你希望非常精确的理解各个名词的解释,那么可以查阅wikipedia.本文是博主通过自己理解消化后并转化成易懂浅显的表述后的介绍.

转:字符集和字符编码学习笔记

原文来自于:http://www.king-liu.net/146/ 在web开发中我们总会遇到这样那样的字符编码问题,例如,当我们在代码编辑器里可以好好显示的html文档在浏览器里却变成了乱码,有时候为了能让我们的页面正常显示我们可能要忙上一天都无法解决(我可是深有体会).为了搞清楚字符编码的问题,今天我也花了很长时间去百度.这里我和大家分享一下我的感想,不对之处,欢迎指正. 首先要了解下什么是字符编码和字符集. 字符集(Charset):是一个系统支持的所有抽象字符的集合.字符是各种文字和符

【转载】十分钟搞清字符集和字符编码

十分钟搞清字符集和字符编码 什么是字符集 什么是字符编码 UTF-8和Unicode的关系 UTF-8编码简介 为什么会出现乱码 如何识别乱码的本来想要表达的文字 常见问题处理之Emoji 本文将简述字符集,字符编码的概念.以及在遭遇乱码时的一些常用诊断技巧 背景:字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题.当遇到纷繁复杂的字符集,各种火星文和乱码时,问题的定位往往变得非常困难.本文就将会从原理方面对字符集和编码做个简单的科普介绍,同时也会介绍一些通用的乱码故障定位的方法以方便读者以后能

字符编码基础知识

1.字符集和字符编码的概念 字符集:一个字符对应着一个数值,这样的一个表就叫做字符集 字符编码:一个字符在内存中是怎样存储的,占用几个字节,每个字节中保存什么内容 2. ASCII码(英文基本编码) 一个字节(Byte)有8位二进制位(bit),每一个二进制位有0和1两种状态,因此每个字节就可以组合出256种状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111. 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定.这被称为ASCI

Windows程序员必须知道的字符编码和字符集

 字符编码 (Character encoding) 在存储和传递文本过程中,为了使得所有电脑都能够正确的识别出文本内容,需要有一个统一的规则. 2. 字符集 (Character Set) ) 一般情况,一种编码方式对应一种字符集.如 ASCII,对应 ASCII 字符集.GBK 编码方式对应 GBK 字符集.但是也有一种编码方式,多种字符集的,Unicode 字符集有多种编码方式,如 utf-8,utf-16 等.  3.  ASCII ASCII(American Standard Cod

刨根究底字符编码之十——Unicode字符集的字符编码方式CEF以及码点、码元

Unicode字符集的字符编码方式CEF以及码点.码元 一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节. 比如,汉字"严"的Unicode码(Unicode码点值.Unicode编号)是十六进制数4E25,转换成二进制数有15位(100 1110 0010 0101),对"严"这个字符的编号进行编码的话,至少需要2个字节.表示其他更大编号

几种常见字符集与字符编码

字符集的概念 字符(Character)是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等. 而字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同. 常用字符集 ASCII字符集.GB2312字符集.GBK字符集. USC-3字符集.Unicode字符集等. 字符编码的概念 字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式.自然数序列.8位组或者电脉冲),以

字符,字符集,字符编码

字符,字符集,字符编码 简书郭文圣 现在Unicode已然一统天下,我想很多年轻的程序员可能都没遇到过编码问题,更不用说了解编码的发展了.前些日子在一个老网站上偶遇乱码,虽然入行时间不短,但对其究竟也是不甚了解,好奇心驱使下落入深坑.还好经过一段时间的摸爬滚打,边学边写,总算大概理清了个脉络,记录之,分享之. 概念 字符是一个信息单位,在计算机里面,一个中文汉字是一个字符,一个英文字母是一个字符,一个阿拉伯数字是一个字符,一个标点符号也是一个字符. 字符集是字符组成的集合,通常以二维表的形式存在