字符集总结与分析

ASCII & GB2312 & UTF-8

ASCII

主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646;

7位(bits)表示一个字符,共128字符,其中32到126是可打印字符。为了表示更多的常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符;

GB2312

全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施;

中国国家标准的简体中文字符集;

双字节表示

两个字节中前面的字节为第一字节(高字节),后面的字节为第二字节(低字节); "高位字节"使用了0xA1-0xF7(把01-87区的区号加上0xA0),"低位字节"使用了0xA1-0xFE(把01-94加上0xA0);

例如: 汉字"啊":区号16,位号01,则区位码是1601; 高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1; 计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1;

UTF-8

Unicode Tranformation Format; 不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的Unicode能够在现存的处理单字节的系统上正确传输;

使用可变长度字节来储存 Unicode字符

例如:

ASCII字母使用1字节储存;

希腊字母等使用2字节来储存;

常用的汉字使用3字节;

辅助平面字符使用4字节。

实践

1.设置修改系统、应用默认字符集

(1)查看虚拟机字符集

由此可见,虚拟机字符集为zh_CN.UTF-8

2.查看服务器支持的编码方式

3.修改字符集类型

由上图可见,wwz字符集类型修改为en_us.utf-8

4.查看某个文件的字符集类型

修改文件的编码方式

上图中,第一行指令是将wwz.txt文件改变编码方式为GB2312然后重定向输出为wwz1.txt文件,在这里,“重定向”类似于Windows下的“另存为”。

时间: 2024-11-09 00:34:17

字符集总结与分析的相关文章

Linux课题实践三——字符集总结与分析

Linux课题实践三——字符集总结与分析 20135318  刘浩晨 字符是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等.字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集.GB2312字符集.BIG5字符集. GB18030字符集.Unicode字符集等. 1.总结ISO.UCS/UTF.GB系列字符集的由来.异同 (1).ISO/IEC ISO/IEC 646:是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定

Linux内核分析——字符集总结与分析

  一.  设置修改系统.应用默认字符集 1. 查看虚拟机的字符集: 由此可见,该虚拟机的字符集为zh_CN.UTF-8. 2. 查看服务器支持的编码方式 3. 修改字符集类型 上图可见,LANG字符集类型修改为en_US.utf-8. 4. 查看某个文件的字符类型 二.  同一文件存储为不同字符集,并分析原始数据 三.总结: 分析完这4个文件,我们发现这4种编码方式只是汉字不同格式运用不同编码,而阿拉伯数字和英文字母都是用ascii编码表示,也就是为什么我们有时候打开一个文件会出现乱码,而阿拉

Oracle Database字符集(1)--案例分析

Oracle Database字符集(1)--案例分析 案例分析: 一次数据库导出(exp)案例分析 1)数据字符集 12:40:37 [email protected] prod>show parameter nls NAME                                 TYPE        VALUE ------------------------------------ ----------- ------------------------------ nls_l

Windows上.java和.class文件字符集编码关系并包括C/C++上的类同分析

[摘要]Windows系统默认采用GBK字符集,因此导致无法使用UTF-8解码.本文在首先说明Windows上使用的字符集,后分析了JAVA下.java..class.javac之间的字符集关系,以及分析了VS的C/C++项目的源文件.二进制文件与编译器间的字符集关系.最后总结:在javac的使用中,最好采用-encoding参数指明.java文件使用的字符集,以免造成不可恢复的中文乱码.[问题重现]JAVA项目中,由于源文件存储采用不同的字符集导致项目输出乱码.当采用GBK存储源文件,正常符出

舆情,文本挖掘

MLE,MAP,EM 和 point estimation 之间的关系是怎样的 和点估计相对应的是区间估计,这个一般入门的统计教材里都会讲.直观说,点估计一般就是要找概率密度曲线上值最大的那个点,区间估计则要寻找该曲线上满足某种条件的一个曲线段. 最大似然和最大后验是最常用的两种点估计方法.以最简单的扔硬币游戏为例,一枚硬币扔了五次,有一次是正面.用最大似然估计,就是以这五次结果为依据,判断这枚硬币每次落地时正面朝上的概率(期望值)是多少时,最有可能得到四次反面一次正面的结果.不难计算得到期望概

JQuery AJAX提交中文乱码的解决方案

?JQuery是一个非常优秀的框架,在特定场合下使用JQuery提交数据,相当的方便快捷. 但是,在处理一个GB2312编码的网站AJAX提交时,中文数据却成了乱码. 现象如下: 1)在Firefox下,处理页面的编码为gb2312,提交数据没有问题,中文能够正确解析: 2)在IE8下,处理页面的编码为gb2312,提交中文数据出现乱码. 无论是$.post还是$.ajax,抑或$.ajaxSubmit(来自于Form插件),在之前的UTF-8编码的网站都没有出现过任何问题, 看来是由于提交数据

服务器升级心得

三年前的前的时候,心血来潮到阿里云买了一台服务器,搭建了一个站点,目的是为了挂一个自己的个人主页,当时仅有一点PHP基础知识的我,居然异想天开的想去打造一个属于自己的专属站点,想想当初的年少无知,现在还觉得有点后怕,不过思想就是这样,你的野心越大,你获取的就更多. 由于当时没有什么计算机知识储备,所以很傻瓜式的用了一个不知道叫什么名字的lnmp一键安装包,版本忘记了,不过PHP是5.5.12,mysql是5.1.73,nginx是1.4.4的版本,作为一个强迫症的患者,总是强迫性质的想要升到最高

codeforces edu40

H(dp计数) 题意: 有一颗树,最深的点的深度是n,每个深度为i的点都有ai个孩子. 对于1<=k<=2n-2,回答树上有多少点对之间的距离是k,答案对1e9+7取模 n<=5000,ai<=1e9 分析: 考虑在lca处计数,发现时间复杂度是O(n^3),即使用卷积优化也仍旧是O(n^2logn)的,无法通过n=5000的情况 考虑另一种计数方式,在端点处计数,分为两种,一种是down,一种是up,down就比较好处理,至于up考虑根据上一个深度来dp 考虑up的时候只有两种决

ISO-8859-1, ASCII, GBK, GB 2312字符集分析

在编程方面经常遇到字符编码的问题,由于对字符集没有一个系统的认识,总是被乱码搞得一头雾水,这篇博文则是对字符编码方面的进行了一下整理,以便日后复习.在学习字符集的过程中,我主要从字符集的(a)编码方式,(b)占用字节,两个方面来进行分析的. ISO-8859-1/ASCII 参考资料:ISO-8859-1 ISO-8859-1(Latin1)编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0