ASCII
简介: 最早出现的编码方式,全称:American Standard Code for Information Interchange,美国信息互换标准代码
内容: 大小写字母、数字、标点符号、空格 用连续的字节状态表示(不包括扩展字符集)
长度: 1个字节 8位
数目: 最初0~127 随着计算机的普及扩展到255,后面的被称为“扩展字符集”,终于达到阈值,前128位不变,后面的是扩展集,可改变
GB2312
简介: 国人对ASCII的扩展字符集,前128未不变,两个大于127的字符连在一起时表示一个汉字,前面一个字节(高字节)从0xA1到0xF7,后面一个字节(低字节)从oxA1到oxFE,
组合成大约7000个简体汉字,也加入数字符号,罗马希腊字母,日文假名等,连原有的字母、数字、标点、空格也重新编成两个字节长,这就是“全角字符”,127以下的叫“半角”字符
内容: 原有的基础上加上部分汉字,数学符号,罗马希腊字母,日文假名
长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)
GBK,GB18030
简介: GBK是对GBK2312的改进,GB18030是对GBK的改进
内容: 更多的汉字,繁体字,符号,GB18030还包括部分少数民族文字
长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)
UNICODE
简介: 为应对各国都弄出的五花八门的编码方式导致乱了套,ISO废了所以的地区性编码方案,搞出一个包括地球上所有文化,字母和符号的编码,全称“Universal Multiple-Octet Coded Character Set”,简称UCS
内容: 地球上所有文化,字母和符号的编码
长度: 全部两个字节 16位,不过前128位的前八位都是0!
与GBK的冲突:在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行
UTF-8, UTF-16
简介: 为了解决UNICODE在网络上传输的问题,面向传输的UTF(UCS Transfer Format)标准出现,UTF-8每次8位传输数据,UTF16每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要通过一些算法和规则来转换。
国内依旧有人使用GBK,这最初是出于空间的考虑,UNICODE体积较大,但随着电脑空间的扩大已经无关紧要,建议统一使用UTF-8!
Base64
简介: 某些系统只能使用ASCII,Base64就是用来将非ASCII字符的数据转换成ASCII字符的一种方法,例如图片、文档,特别适合在http,mime协议下快速传输数据。