UNICODE GBK UTF-8等文本编码(个人理解)

1.对编码的个人理解
一类是ASCII码,学C语言时接触到的,只能编码基本字符;
另外就是ANSI编码和UNICODE编码,这两类是编码标准,他有多种实现(就像H264标准一样)。
对于ANSI编码标准,简体中文对其实现有GBK,
GB2312,
GB18030 等编码(就像AVC一样,是H264标准的一种实现),繁体中文,日文有其他编码实现.
对于UNICODE编码标准,是国际通用编码,具体实现有
UTF-16 UTF-16LE UTF-16BE UCS-2  UTF-8等。
win8与ubututu编码名称对应关系如下

Windows(win8 enterprise x64 zh) notepad


linux(ubuntu14.04 x64 en) gedit


ANSI


GB2312 GB18030 GBK


Chinese simplified


UNICODE


UTF-16 UTF-16LE UCS-2


UNICODE


UNICODE big endian


UTF-16 UTF-16BE


UTF-8


UTF-8

时间: 2024-11-25 10:56:37

UNICODE GBK UTF-8等文本编码(个人理解)的相关文章

ascii、unicode、utf、gb等编码详解

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的字节一共可以组合出256(2的8次方)种不同的状态. 他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端.打印机遇上约定

ANSI, UTF-8, Unicode, GBK, GB2312 字符编码小结

这两天碰见一个Bug,涉及到字符编码,一通乱搜后,索性研究了下,整理出来,以便今后查阅. ASCII码,0~127,128个,这个就不用多说了,他是计算机文明的基石.但是这里面只有英文字母,其他国家如何把本国的文字输入到电脑中呢?所以基本每种语言都有自己的字符集,如汉字就有GB2312(简体中文),BIG5(繁体中文)等等. 但不同的ANSI编码在不同语言之间是不兼容的,所以对于不同的操作系统之间文件的传输,或者在同样的操作系统下,源文件语言不同于OS的语言文件的传输,需要转换成UTF-8格式.

ASCII、GBK、unicode、utf-8、iso-8859-1等编码的发展史和相互关系

1.ASCII 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的字节一共可以组合出256(2的8次方)种不同的状态. 他们把其中的编号从0开始的32种状态分别规定了特殊的

UNICODE,GBK,UTF-8区别

UNICODE,GBK,UTF-8区别    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就OK了.详细的就见下面转的这篇文章. 谈谈

UNICODE,GBK,UTF-8

UNICODE,GBK,UTF-8 UNICODE,GBK,UTF-8    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就OK了.详

UNICODE,GBK,UTF-8区别【转载】

UNICODE,GBK,UTF-8区别 简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就OK了.详细的就见下面转的这篇文章. 谈谈Uni

UTF-8,Unicode,GBK,希腊字母读法,ASCII码表,HTTP错误码,URL编码表,HTML特殊字符,汉字编码简明对照表

UNICODE,GBK,UTF-8区别 UNICODE,GBK,UTF-8区别    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就O

mac中txt文件打不开—— 文本编码“简体中文(mac os)”不适用 (转载)

在苹果机上读取txt文件时,有的会打不开, 出现提示: 文本编码“简体中文(mac os)”不适用.该文件可能已使用了不同的文本编码来存储,或者可能不是文本文件.这是由于文件不同编码造成的. 在mac上面有2种中文编码: 一种是:和windows一样的中文(GB 18030) 一种是:简体中文(Mac OS) 两种编码不一样   解决办法: 打开文本编辑—偏好设置——打开和存储——纯文本文件编码——打开文件——选择“中文(GB 18030)” 附: 国家标准GB18030-2000<信息交换用汉

Unicode、UTF-8 和 ISO8859-1到底有什么区别

说明:本文转载于新浪博客,旨在方便知识总结.原文地址:http://blog.sina.com.cn/s/blog_673c81990100t1lc.html 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687".

理清文本编码

最近搞u3d开发,把一些文本文件打成包,发布到手机上,发现各种乱码,结果法线是各种编码方式不对,于是好好研究了一下不同平台上的字符编码,然后发现以前一直认为的unicode utf8 gbk asc2这些字符编码自以为很懂,其实完全理解的不对,在这方面也是因为有太多的网上文档在误人子弟,这里好好梳理一下 1.首先为什么要对字符进行编码?文本格式同二进制格式有何不同? 计算机的基本计量单位是一个比特(即一个二进制数),而存储数据的一个基本单位是字节(8位二进制数,2个16进制数 0X00-0xff