【字符集及字符编码】UTF-8、UTF-16和UTF-32

UTF-32 用 4 个字节存储每一个字符，以保证能把 UCS 完全表达出来。但实际上 UCS 的字符数量根本不需要用 32 位表示，UTF-32 极大地浪费了空间。另外，由于组合字符的存在，定长表示并不能如预期那样迅速地定位字符，反正就是超级不好用。

UTF-16 将 UCS 映射为 16 长的整数，用于数据存储或传输。UCS 的码位，需要 1 个或 2 个 16 位的码来表示，因此这是一个变长表示。另外，UTF-16 也需要指定字节序。Java 和 C# 里的字符串表示就是用的 UTF-16 编码，从而它们的 char 类型跟 short 类型都是 16 位的，需要另外添加一个 byte 类型来表示 8 位字节。

UTF-8 也是一个可变长度字符编码，它同时是一个前缀码，前缀码的特征是，编码系统中的任意一个合法的码不会是另外一个码的前缀，所以 UTF-8 不需要指定字节序。一个 UTF-8 编码可以用 1~6 个字节来表示，将第一个字节的前几个比特设置为 1 来指定这个字符占用几个比特，比如一个两字节的字符的编码，第一位是 110xxxxx，第二位是 10xxxxxx，而一个六字节字符的编码是这样的：1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx，所以 UTF-8 最多能编码 2³¹ 个字符。

时间： 2024-10-13 17:38:06

【字符集及字符编码】UTF-8、UTF-16和UTF-32的相关文章

刨根究底字符编码之十——Unicode字符集的字符编码方式CEF以及码点、码元

Unicode字符集的字符编码方式CEF以及码点.码元一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节. 比如,汉字"严"的Unicode码(Unicode码点值.Unicode编号)是十六进制数4E25,转换成二进制数有15位(100 1110 0010 0101),对"严"这个字符的编号进行编码的话,至少需要2个字节.表示其他更大编号

字符，字符集，字符编码

字符,字符集,字符编码简书郭文圣现在Unicode已然一统天下,我想很多年轻的程序员可能都没遇到过编码问题,更不用说了解编码的发展了.前些日子在一个老网站上偶遇乱码,虽然入行时间不短,但对其究竟也是不甚了解,好奇心驱使下落入深坑.还好经过一段时间的摸爬滚打,边学边写,总算大概理清了个脉络,记录之,分享之. 概念字符是一个信息单位,在计算机里面,一个中文汉字是一个字符,一个英文字母是一个字符,一个阿拉伯数字是一个字符,一个标点符号也是一个字符. 字符集是字符组成的集合,通常以二维表的形式存在

字符集与字符编码的强化理解与操作实践

字符集与字符编码的强化理解与操作实践踩坑最近在工作中遇到了一个说大不大说小不小的问题,就是当我解析一个xml文件的时候,抛出了一个"Invalid byte 2 of 2-byte UTF-8 sequence"的异常,这个异常会导致解析直接退出,显然不能容忍.查阅相关资料稍微定位了一下,大概知道是字符集的问题,仔细一看,xml文件中的确有中文字符,而且当我把这些中文字符删了之后的确又能解析成功.不过我还是不能理解这当中的缘由,不过由于时间原因,当时只是把中文字符删了就草草完工.现

搞定字符集与字符编码

1.什么是字符集? 字符:文字.符号.包含各个国家文字.标点符号,图形,数字等字符集:多个字符的集合(多个文字.符号的集合),不同字符集包含的字符个数不同. 2.什么是字符编码? 字符编码:字符集只字符的集合,不适用于网络传输,计算机想准确处理及向硬盘存储各种字符集中的文字.符号,需要经过字符编码,010101的组合对应哪种字符集中的哪些文字,字符编码就是将文字与符号转换为计算机可以接受的数字用于存储与网络传送,就叫字符编码. 简单的说,字符编码就是以二进制的数字来对应字符集中的字符.对字符进

每一个程序员必须掌握的知识，字符集与字符编码.

1. 基础知识计算机中储存的信息都是用二进制数表示的:而我们在屏幕上看到的英文.汉字等字符是二进制数转换之后的结果.通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码":反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密.在解码过程中,如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码. 字符集(Charset):是一个系统支持的所有抽象字符的集合.字符是各种文字和符号的总称,包括各国家文字.标点符

几种常见字符集与字符编码

字符集的概念字符(Character)是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等. 而字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同. 常用字符集 ASCII字符集.GB2312字符集.GBK字符集. USC-3字符集.Unicode字符集等. 字符编码的概念字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式.自然数序列.8位组或者电脉冲),以

字符集与字符编码

[转]字符集和字符编码(Charset & Encoding)----谢谢博主 --每个软件开发人员应该无条件掌握的知识! --Unicode伟大的创想! 相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"б?ЯАзЪСЯ"."?????????"?还记得HTTP中的Accept-Charset.Accept-Encoding.Accept-Language.Content-Encoding.Content-Language等消息头字段?这些就是接下来

字符集、字符编码总结

字符集(Charset):是一个系统支持的所有抽象字符的集合.字符是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等. 字符编码:是一套规则,将字符和二进制数据建立映射关系. 按照出现的时间: 1.ASCLL(American Standard Code for Information Interchange):它包含一个字节,128个字符: 2.EASCLL:包含256个字符,它是对ASCALL的扩展. 3.ISO-8859:计算机传到欧洲之后,之前的字符集不够使用了,国际标准

字符集与字符编码详解

字符字符和字节不太一样,任何一个文字或符号都是一个字符,但是所占字节不一定,不同的编码导致一个字符所占的内存不同. 例如:标点符号"+"是一个字符,汉字"我们"是两个字符,在GBK编码中一个汉字占2个字节,在UTF-8编码中一个汉字占3个字节. 随着时代的发展,程序员们希望在计算机中显示字符,但计算机只能识别0和1的二进制数.于是就有了编码规范. 编码规范所谓的字符集其实是一套编码规范中的子概念,为了显示字符,国际组织就指定了编码规范,希望使用不同的二进制数来表

（转）字符集与字符编码

转载自:http://blog.sina.com.cn/s/blog_5e4814ec01014prk.html 从第一次开始写web程序,自己还有身边同事开发出现乱码情况基本都没有消停过.估计以后还会一样继续.这么些年,不断修修改改,也总结也归纳.程序从asp,asp.net,jsp,php,服务器从windows到linux,数据库也从sqlserver,mysql到oracle:它还是偶尔会出现.好了,我总结下我与它较量的一些收获吧.乱码都与字符集有关系,一切都从它开始说. 什么是字符集,

猜你喜欢

trie树的建立方法汇总

方法一:孩子兄弟表示法即对于某一个点,记录他的第一个孩子以及他的同父亲的下一个儿子. 具体代码如下: #include <cstdio> #include <cstring> ...

hdu1251 字典树or map

一道字典树的题,不过看起来用map更为简单传送门题意: 给出一堆字符串构成一个字典,求字典里以某字符串为前缀的字符串有几个思路: 输入字符串时把字符串的前缀全部存进map并标记次数查询时直接输 ...

XX老师的一次公开课讲座，成长之路，受益匪浅

其实本人也是一个毕业于三流的学校,且不说学校的好坏吧,学习这东西关键在于自己,俗话说:"师傅领进门,修行靠自己". 先声明下,本人文采不行不善于写作,请勿喷^_^ . 我的大学专业 ...

简单的业务更考验技术--化腐朽为神奇

金庸经典<射雕英雄传>里,黄蓉为了让洪七公交自己和靖哥哥武功,天天对师傅美食相待,在做了“玉笛谁家听落梅”这样一些世间珍品之后,告诉师傅说今天要做的是"炒白菜".洪七公 ...

HashMap与HashTable联系与区别

HashMap与HashTable 1.hashMap去掉了HashTable 的contains方法,但是加上了containsValue()和containsKey()方法. 2.hashTabl ...

服务发布

服务发布结合上文,我们的服务已经可以正常运行了,但它的访问方式只能通过服务器IP加上端口来访问,如何通过域名的方式来访问到我们服务,本来想使用Kubernetes的Ingress来做,折腾一天感觉比 ...

http://bar.cnyes.com/html/100102-1/8D2292CFED8FA16.shtml http://bar.cnyes.com/html/100102-1/8D2292D5 ...

boost.xml_parser中文字符问题

当使用xml_parser进行读xml时,如果遇到中文字符会出现解析错误. 网上有解决方案说使用wptree来实现,但当使用wptree来写xml时也会出错.而使用ptree来写中文时不会出错. 综合 ...

iptables CLUSTERIP构建独特的负载均衡集群

我一开始不知道树莓派有什么好玩的,后来发现真正好玩的地方在于你要具有想象力,用它丰富的GPIO针脚去接各种外设-同样,iptables本身也没啥好玩的,真正好玩的地方,在于它的各种match,targ ...

reactor模式与java nio

?? Reactor是由Schmidt, Douglas C提出的一种模式,在高并发server实现中广泛採用. 改模式採用事件驱动方式,当事件出现时,后调用对应的事件处理代码(Event Handl ...

oop典型应用，代码。

遍历获得一个实体类的所有属性名,以及该类的所有属性的值.//先定义一个类: public class User{ public string name { get; set; } public str ...

html 中几次方，平方米，立方米.

m的n次方表示法:mn m<sup>n</sup> 10<sup>6</sup> m的n次方表示法:mn m<sub>n</sub&g ...

linux入侵后的必要工作。及rootkit的监测工具rkhunter简析

rootkit是是Linux平台下最常见的一种木马后门工具,它主要通过替换系统文件来达到入侵和和隐蔽的目的,这种木马比普通木马后门更加危险和隐蔽,普通的检测工具和检查手段很难发现这种木马. 一般 ...

MVC小系列（十二）【RenderAction和RenderPartial区别】

二者作用:RenderAction:渲染分部视图到页面上,要求提供Action和控制器名称RenderPartial:渲染分部视图到页面上,要求提供分部视图的名称,即路径,如果是在当前控制下或者sha ...

ThinkPHP中URL访问模式详解

一.ThinkPHP中支持的四种URL访问模式所谓URL访问模式,指的是以哪种形式的URL地址访问 ...

1、了解网络

第一个分组交换网:ARPANET 局域网:以太网,令牌总线局域网,令牌环局域网 OSI:开放系统互连参考模型,七层分别为物理层.数据链路层.网络层.运输层.会话层.表示层.应用层 TCP/IP:四层分 ...

前阶段学习工作总结，下一步计划

在工作的时空下,相比学生时代的时空,时间这个维度上的速度貌似变快了不少:虽然天天几乎满脑子的技术,不断的在现有需求技术实现上遇到瓶颈,而刚开始却不是瓶颈,因为刚开始是什么都没有,几乎一片空白.于是需求 ...

AngularJs学习笔记7——四大特性之模块化设计

模块化设计 1.引用自定义模块并调用自定义模块中,如果有一些服务.封装好笑模块,在另外一个模块中(声明的时候,在依赖列表中加入要引入的模块) var app02 = angular.module(' ...

并发类相关需求测试

我去年做的一个东航官网抢购红包的需求测试分享,搬运一下. 我刚踏入测试行业半年,遇到的第一个抢购类需求测试,值得纪念一下. 我自己画了一个程序的流程图

Java基础复习笔记系列九网络编程

Java基础复习笔记系列之网络编程 1. 2.

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.