常用编码简单说明

ascii编码：

这是最早的一种编码，很多其他的编码都会兼容ascii编码，ascii编码只包含常用的英文字母，数字，以及一些特殊字符，还有部分控制字符。

每个字符由占用一个字节的存储空间，因为最多只包含127个字符，而一个字节(8bit)最多可以存256(2^8)个字符，故其最高位都为0。

例如大写英文字母‘A‘对应的ascii码值为65，用二进制表示就是01000001.

gb2312编码：

由于计算机是美国人发明的，在设计编码的时候没有考虑到别国的文字，而ascii编码中是不包含别国的文字的，比如中文。所以想要在计算机中显示

我们的中文，就必须制定一套中文编码规范，而gb2312就是其中一种，该编码方式包含常用的中文字符。而且兼容ascii编码，在gb2312编码中，ascii

字符还是跟原来一样占用一个字节，一个中文字符占用2个字节，ascii字符的码值在0-127之间，中文字符的两个字节的码值都是在127-256之间。

gbk编码：

gbk也是一种中文编码，其兼容gb2312编码，并且比gb2312包含了更多的汉字，与gb2312不同的是gbk在存储中文时，第一个字节码值在127-256之间，

第二个字节的码值在0-256之间，所以gbk能表示更多的汉字。

utf-8编码：

utf-8是一种国际化的编码方式，其包含世界各国的大部分文字，并且兼容ascii编码。在utf-8中，用1-6个字节来存储一个字符。具体如何区分某个字符

占几个字节呢？这就要看字符的第一个字节特征了

当第一个字节的二进制以‘0’开头时，表示这是个ascii字符，即只占一个字节

当以‘110‘开头时，表示这个字符占2个字节，其后的1个字节也属于该字符

当以‘1110‘开头时，表示这个字符占3个字节，其后的2个字节也属于该字符,

当以‘11110‘开头时，表示这个字符占4个字节，其后的3个字节也属于该字符

当以‘111110‘开头时，表示这个字符占5个字节，其后的4个字节也属于该字符

当以‘1111110‘开头时，表示这个字符占6个字节，其后的5个字节也属于该字符

其中大部分的中文在utf8中都占3个字节，即第一个字节以1110开头那一类。

时间： 2024-10-25 19:25:26

常用编码简单说明的相关文章

常用编码简单理解

ASCII: 全称为:American Standard Code for Information Interchange(美国信息交换标准代码) 在计算机中,所有的数据在存储和运算时都要使用二进制数表示(即值为0和1),而定义具体用哪些二进制数字表示哪个符号的规则就叫编码,ASCII编码就是其中的一种,ASCII码涵盖了所有的大写和小写字母,数字0 到9,标点符号,以及在美式英语中使用的特殊控制字符,对照关系见图1和图2. 从图1和图2中,可以看到ASCII有256个字符(0-255),而在二

常用编码学习

常用编码在计算机世界,所有信息都是用二进制存储.每一个二进制有0和1两种状态. 所以8个二进制就可以组合成256种状态,也就是一个字节. 也就是说,一个字节可以用来表示256种不同的状态,每一个状态对应一个符号,也就是256个符号,从00000000-11111111. ASCII码一共规定了128个字符的编码,包含大小写字母.数字.还有空格等一些常用符号,这128个符号中有32个不能打印出来的控制符号.只占用了一个字节的后面7位,也就是最前面一位都是0. 大写字母A是65,也就是二进制的0

文本文件常用编码

1.字符串存入文件中,需要将字符串转化为字节后才能存入 ,存入字节时,字符串需要通过特定的编码规则编码后存入(常用编码规则:GBK(中文平台默认),uft-8,uft-16be) 一个字符串放入文本文件--->可以认为是字符串的序列化 2.从文本中读取字符串也需要相同的编码方式从文本文件中读取字符串--->可以认为是字符串的反序列化 1 import java.io.UnsupportedEncodingException; 2 import java.util.Arrays; 3 4

常用编码测试

1 public static void main(String[] args) { 2 String s = "你好"; 3 String cn = ""; 4 System.out.println("src: " + s); 5 try { 6 7 byte[] bs = s.getBytes("utf-8"); 8 System.out.println(Arrays.toString(bs));; 9 //[-28, -

字符编码简单介绍

1. ASCII码 ASCII (American Standard Code for Information Interchange, 美国标准信息交换代码),是基于拉丁字母的一套编码系统.主要用于显示现代英语和其它西欧语言.它是现今最通用的单字节编码系统. 单个字节能够表示256个不同的字符,只是 ASCII 仅仅使用了当中低于\x80(即最高位字节为0)的一半来表示全部的英文字符以及一些控制字符,因此 ASCII 码的实际取值范围为0x00到0x7f之间,一共128个字符. 2. 多字节字

常用编码软件简单使用记录 1 : 自主编码器

用于转码或者编码的软件很多.但是实际上编码器的数量是是相对比较少的.很多编码软件都算是编码器的GUI.它们外观不同,但是实际上都调用了同样的编码器.比如说一般情况下编码H.264的时候都调用了x264.这类软件很多,比如格式工厂,狸窝视频转换器,MediaCoder,TMPGEnc,HandBrake等等.而有一些公司的编码软件是使用自己的编码器的.这些公司规模较大,因而有足够的资源自己开发编码器.比如Mainconcept,Divx,Elecard,Intel.最近在做转码方面的研究,简单记录

常用编码软件简单使用记录 2 : 非自主编码器

上一篇文章记录了记录自主生产编码器的厂商的编码软件,包括Mainconcept,Divx,Elecard.本文记录一下不使用自主生产编码器的软件. 不使用自主生产编码器的软件比较常见.这类软件实际上是一个配置各种命令行编码器的图形界面(毕竟命令行界面只有少数人会,而图形界面大部分人都会),从而使命令行编码软件使用起来更方便.不再详细叙述,仅简要记录一下自己的使用过程. (1) 格式工厂官方网站:http://www.pcfreetime.com/ 格式工厂是当今使用最为广泛的转码软件.它在

计算机常用编码 (整理的资料)

注意: 编码的基础知识: 1.位 bit 最小的单元字节 byte 机器语言的单位换算 1byte=8bits 1kb=1024byte 1MB=1024KB 1GB=1024MB 2.进制二进制 binary | 八进制 octal | 十进制 decimal |十六进制hex 3.字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等.

【转】常用编码总结

从网上弄下来的: 1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.前者即为ASCII编码,后者对应ANSI.至于简体中文编码GB2312,实际上它是AN