汉字编码

机内码、国际码、区位码之间的换算

字符编码的两种表示方式:

    ASCII(字符的表示);GB2312(国标码,汉字编码)

  区位码:1980年,为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。

  国际码:在汉字计算机编码标准中,目前最大的汉字编码是台湾的标准CNS11643,目前(4.0)共收录可考证之繁简、日、韩语汉字共76,067个,但并不普及,只有在户政系统等少数环境使用。

  机内码:国家标准局颁布的《信息交换用汉字编码字符集基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码。

汉字编码的换算:

    一、将区位码转换为国标码.两区位码改写成十六进制,XXOOH.XX是区码,OO是卫码H代表十六进制.将XXOOH加2020H得到的就是国标码。

    二、国标码转换成机内码.将所得到的国标码加8080H,就可得机内码。

      如果是机内码转化成国标码,或者是国标码转化成区位码,做减法就可以了

      区位码、国标码与机内码的转换关系方法:

      (1)区位码先转换成十六进制数表示

      (2)(区位码的十六进制表示)+2020H=国标码;

      (3)国标码+8080H=机内码

        举例:以汉字“大”为例,“大”字的区内码为2083

        1、区号为20,位号为83

        2、将区位号2083转换为十六进制表示为1453H

        3、1453H+2020H=3473H,得到国标码3473H

        4、3473H+8080H=B4F3H,得到机内码为B4F3H

字符编码的两种表示方式:ASCII(字符的表示);GB2312(国标码,汉字编码)

进制的转换计算

例如:

把256转换成16进制。

256÷16=16……0,

16÷16=1……0,

1÷16=0……1,

所以,256转换成16进制就是100。

原文地址:https://www.cnblogs.com/lumc5/p/11258317.html

时间: 2024-10-12 15:40:22

汉字编码的相关文章

PHP json_encode 处理汉字为空 服务端JSON汉字编码

PHP   json_encode 处理汉字为空  服务端JSON汉字编码 原因是这个汉字是gbk编码 , json只能处理utf-8的编码 ,所以要先将数据转码 用Extjs接收PHP服务端返回的Json结果时,发现只要是汉字(从SQLServer取得)都是空字符,很是纳闷.后来看 json_encode的文档才知道,它只能编码UTF-8的字符.这个问题就是返回的字符是GB2312,怎么变为UTF-8,并且最好是将整个数组进 行UTF-8的转换.经过搜索有以下代码完成: //处理数组编码格式

一个webkit处理汉字编码的问题

在XX项目中解决android webkit处理汉字编码问题的总结 问题: 服务器通过302重定向方式发送给客户端重定向地址,地址中的汉字采用原数据方式发送,没有经过任何编码.因为其中存在汉字,所以在android端经过webkit解码编码之后,最终无法正常在服务器端请求正确数据.Android中默认使用utf-8编码. Android在framework中解析http信息,Request.java的函数readResponse通过AndroidHttpClientConnection.java

汉字编码 (GB2312 GBK GB18030)

GB2312 收录简化汉字及符号.字母.日文假名等共7445个图形字符,其中汉字占6763个 每个符号都用两个字节表示,每个字节均采用七位编码表示,习惯上 第一个字节是高字节,第二个字节是低字节 GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别 GBK 由于GKB收录的汉字较少以及配合UNICODE的实施,GBK 产生了 向下兼容GB2312 双字节表示 GBK共收入21886个汉字和图形符号,包括: GB2312中的全部汉字.非

汉字编码之GBK编码(附完整码表)

继续字符编码的学习.今天介绍一下GBK(汉字内码扩展规范),GB 2312 GB18030.引用网友的话可以概括一下:GBK和UTF8的区别:GBK就是在保存你的帖子的时候,一个汉字占用两个字节..外国人看会出现乱码,此为我中华为自己汉字编码而形成之解决方案.UTF8就是在保存你的帖子的时候,一个汉字占用3个字节..但是外国人看的话不会乱码,此为西人为了解决多字节字符而形成之解决方案.笔者之前写过utf-8的博客[点击] GBK--专门为解决汉字的编码而生成的解决方案. 那么,一个汉字究竟被存储

charCodeAt方法以及Unicode中文汉字编码范围

js的charCodeAt() 方法可返回指定位置的字符的 Unicode 编码.这个返回值是 0 - 65535 之间的整数. 在字符串 "Hello world!" 中,我们将返回位置 1 的字符的 Unicode 编码: <script type="text/javascript"> var str="我是谁"; document.write(str.charCodeAt(1));//输出汉字“是”的编码(10进制) </

JSP/Servlet 中的汉字编码问题

1.问题的起源 每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的 ASCII,中国的 GB2312 -80,日本的 JIS 等,作为该国家/区域内信息处理的基础,有着统一编码的重要作用.字符编码集按 长度分为 SBCS(单字节字符集),DBCS(双字节字符集)两大类.早期的软件(尤其是操作系统), 为了解决本地字符信息的计算机处理,出现了各种本地化版本(L10N),为了区分,引进了 LANG, Codepage 等概念.但是由于各个本地字符集代码范围重叠,相互间信息交换困难:软件

树莓派进阶之路 (031) -字符问题(1) - GBK汉字编码表(转)

转载:http://blog.sina.com.cn/s/blog_8184e033010109ug.html 基本简介 GB码,全称是GB2312-80<信息交换用汉字编码字符集基本集>,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码.P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码.但兼容支持GB2312.GB码共收录6763个简体汉字.682个符号,其中

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK

简体汉字编码方案(GB2312.GBK.GB18030.GB13000)以及全角.半角.CJK 一.概述 1. 英文字母再加一些其他标点字符之类的也不会超过256个,用一个字节来表示一个字符就足够了(2^8 = 256).但其他一些文字不止这么多字符,比如中文中的汉字就多达10多万个,一个字节只能表示256个字符,肯定是不够的,因此只能使用多个字节来表示一个字符. 于是当计算机被引入到中国后,相关部门设计了GB系列编码("GB"为"国标"的汉语拼音首字母缩写,即&q

delphi中URL的汉字编码

delphi中URL的汉字编码 show.asp?sort=全部&sortlevel=1&gorq=供&n=5&sitename=全部&img=yes&imgfile=/images/dot_g.gif 诸如这样的形式,在百度查询会转成GB2312的编码,每个汉字对应2个%xx%xx ,但是在google,每个汉字则对应的三个%xx%xx%xx,采用的是unicode编码 在delphi2010中,因为引入unicode的缘故,默认的成了3个%xx,导致我的

Unicode汉字编码表以及参考源码分享

1 Unicode编码表 Unicode只有一个字符集,中.日.韩的三种文字占用了Unicode中0x3000到0x9FFF的部分  Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符.