常用编码简单说明

ascii编码:

这是最早的一种编码,很多其他的编码都会兼容ascii编码,ascii编码只包含常用的英文字母,数字,以及一些特殊字符,还有部分控制字符。

每个字符由占用一个字节的存储空间,因为最多只包含127个字符,而一个字节(8bit)最多可以存256(2^8)个字符,故其最高位都为0。

例如大写英文字母‘A‘对应的ascii码值为65,用二进制表示就是01000001.

gb2312编码:

由于计算机是美国人发明的,在设计编码的时候没有考虑到别国的文字,而ascii编码中是不包含别国的文字的,比如中文。所以想 要在计算机中显示

我们的中文,就必须制定一套中文编码规范,而gb2312就是其中一种,该编码方式包含常用的中文字符。而且兼容ascii编码,在gb2312编码中,ascii

字符还是跟原来一样占用一个字节,一个中文字符占用2个字节,ascii字符的码值在0-127之间,中文字符的两个字节的码值都是在127-256之间。

gbk编码:

gbk也是一种中文编码,其兼容gb2312编码,并且比gb2312包含了更多的汉字,与gb2312不同的是gbk在存储中文时,第一个字节码值在127-256之间,

第二个字节的码值在0-256之间,所以gbk能表示更多的汉字。

utf-8编码:

utf-8是一种国际化的编码方式,其包含世界各国的大部分文字,并且兼容ascii编码。在utf-8中,用1-6个字节来存储一个字符。具体如何区分某个字符

占几个字节呢?这就要看字符的第一个字节特征了

当第一个字节的二进制以‘0’开头时,表示这是个ascii字符,即只占一个字节

当以‘110‘开头时,表示这个字符占2个字节,其后的1个字节也属于该字符

当以‘1110‘开头时,表示这个字符占3个字节,其后的2个字节也属于该字符,

当以‘11110‘开头时,表示这个字符占4个字节,其后的3个字节也属于该字符

当以‘111110‘开头时,表示这个字符占5个字节,其后的4个字节也属于该字符

当以‘1111110‘开头时,表示这个字符占6个字节,其后的5个字节也属于该字符

其中大部分的中文在utf8中都占3个字节,即第一个字节以1110开头那一类。

时间: 2024-10-25 19:25:26

常用编码简单说明的相关文章

常用编码简单理解

ASCII: 全称为:American Standard Code for Information Interchange(美国信息交换标准代码) 在计算机中,所有的数据在存储和运算时都要使用二进制数表示(即值为0和1),而定义具体用哪些二进制数字表示哪个符号的规则就叫编码,ASCII编码就是其中的一种,ASCII码涵盖了所有的大写和小写字母,数字0 到9,标点符号,以及在美式英语中使用的特殊控制字符,对照关系见图1和图2. 从图1和图2中,可以看到ASCII有256个字符(0-255),而在二

常用编码学习

常用编码 在计算机世界,所有信息都是用二进制存储.每一个二进制有0和1两种状态. 所以8个二进制就可以组合成256种状态,也就是一个字节. 也就是说,一个字节可以用来表示256种不同的状态,每一个状态对应一个符号,也就是256个符号,从00000000-11111111. ASCII码 一共规定了128个字符的编码,包含大小写字母.数字.还有空格等一些常用符号,这128个符号中有32个不能打印出来的控制符号.只占用了一个字节的后面7位,也就是最前面一位都是0. 大写字母A是65,也就是二进制的0

文本文件常用编码

1.字符串存入文件中,需要将字符串转化为字节后才能存入 ,存入字节时,字符串需要通过特定的编码规则编码后存入(常用编码规则:GBK(中文平台默认),uft-8,uft-16be) 一个字符串放入文本文件--->可以认为是字符串的序列化 2.从文本中读取字符串也需要相同的编码方式    从文本文件中读取字符串--->可以认为是字符串的反序列化 1 import java.io.UnsupportedEncodingException; 2 import java.util.Arrays; 3 4

常用编码测试

1 public static void main(String[] args) { 2 String s = "你好"; 3 String cn = ""; 4 System.out.println("src: " + s); 5 try { 6 7 byte[] bs = s.getBytes("utf-8"); 8 System.out.println(Arrays.toString(bs));; 9 //[-28, -

字符编码简单介绍

1. ASCII码 ASCII (American Standard Code for Information Interchange, 美国标准信息交换代码),是基于拉丁字母的一套编码系统.主要用于显示现代英语和其它西欧语言.它是现今最通用的单字节编码系统. 单个字节能够表示256个不同的字符,只是 ASCII 仅仅使用了当中低于\x80(即最高位字节为0)的一半来表示全部的英文字符以及一些控制字符,因此 ASCII 码的实际取值范围为0x00到0x7f之间,一共128个字符. 2. 多字节字

常用编码软件简单使用记录 1 : 自主编码器

用于转码或者编码的软件很多.但是实际上编码器的数量是是相对比较少的.很多编码软件都算是编码器的GUI.它们外观不同,但是实际上都调用了同样的编码器.比如说一般情况下编码H.264的时候都调用了x264.这类软件很多,比如格式工厂,狸窝视频转换器,MediaCoder,TMPGEnc,HandBrake等等.而有一些公司的编码软件是使用自己的编码器的.这些公司规模较大,因而有足够的资源自己开发编码器.比如Mainconcept,Divx,Elecard,Intel.最近在做转码方面的研究,简单记录

常用编码软件简单使用记录 2 : 非自主编码器

上一篇文章记录了记录自主生产编码器的厂商的编码软件,包括Mainconcept,Divx,Elecard.本文记录一下不使用自主生产编码器的软件. 不使用自主生产编码器的软件比较常见.这类软件实际上是一个配置各种命令行编码器的图形界面(毕竟命令行界面只有少数人会,而图形界面大部分人都会),从而使命令行编码软件使用起来更方便.不再详细叙述,仅简要记录一下自己的使用过程. (1) 格式工厂 官方网站:http://www.pcfreetime.com/   格式工厂是当今使用最为广泛的转码软件.它在

计算机常用编码 (整理的资料)

注意: 编码的基础知识: 1.位      bit 最小的单元    字节  byte  机器语言的单位    换算   1byte=8bits   1kb=1024byte  1MB=1024KB 1GB=1024MB 2.进制  二进制 binary | 八进制 octal |  十进制 decimal |十六进制hex 3.字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等.                                             

【转】常用编码总结

从网上弄下来的: 1.  ASCII和Ansi编码    字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为     单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码.     双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.前者即为ASCII编码,后者对应ANSI.至于简体中文编码GB2312,实际上它是AN