ASCII, Unicode 与 UTF-8

1，ASCII

由于计算机是美国人发明的，最早只有127个字符，即大小写英文字母、数字、一些符号，被编码到计算机里，这个编码表就是ASCII表。这时每个字符用1 Byte表示。

2，Unicode

当其他语言也需要在计算机上表示时，1 Byte显然不够，这时Unicode出现了。Unicode试图把所有语言统一到一套编码，它与ASCII的区别是：ASCII用1 Byte表示字符；Unicode通常用2 Bytes，极端情况下用4～6 Bytes。ASCII扩展到Unicode也很简单，在前面补0即可。

3，UTF-8

Unicode的一个问题是效率，如果全篇文本都是英文，那么与ASCII相比Unicode占用的空间至少多了一倍。这时候又出现了把Unicode转化为“可变长编码”的做法，这就是UTF-8。UTF-8把一个Unicode根据不同数字大小编码成1～6 Bytes，常用英文字母1 Byte，汉字通常是3 Bytes，只有很偏僻的字符才会编码成4～6 Bytes。

4，在计算机中的使用

在计算机内存，统一使用Unicode编码，当需要保存到硬盘或者需要传输时，转换成UTF-8。

例如，用记事本编辑文本时，

文件存在硬盘中，是UTF-8编码；用记事本打开文件，先转换成Unicode送到内存。

又例如，浏览网页时，

上述内容来自廖雪峰。

原文地址：https://www.cnblogs.com/freshair_cnblog/p/10001364.html

时间： 2024-10-23 19:57:51

ASCII, Unicode 与 UTF-8的相关文章

【转】【编码】ANSI,ASCII,Unicode,UTF8

不同的国家和地区制定了不同的标准,由此产生了 GB2312.GBK.GB18030.Big5.Shift_JIS 等各自的编码标准.这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码.在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码:在繁体中文Windows操作系统中,ANSI编码代表Big5:在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码.不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,

ascii、unicode、utf、gb等编码详解

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的字节一共可以组合出256(2的8次方)种不同的状态. 他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端.打印机遇上约定

Unicode、UTF－8 和 ISO8859-1到底有什么区别

说明:本文转载于新浪博客,旨在方便知识总结.原文地址:http://blog.sina.com.cn/s/blog_673c81990100t1lc.html 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687".

[转]ASCII UNICODE与UTF-8编码规则及区别

字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识. 1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出 256种状态,这被称为一个字节(byte).也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从 0000000到11111111. 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一

Unicode 与 UTF 字符标准

Unicode 国际字符标准(UCS)是一个字符编码系统,它被设计用来支持世界各国不同语言书面文体之间的数据交换.处理以及显示. Unicode用两个字节表示一个字符.前127个字符与ASCII标准一样,前256个字符符合ISO 8859-1标准. UTF (UCS Transformation Format)提供的 Unicode 字符的表示法对文件系统都是安全的.UTF-8 使用一个字节表示常用的7位ASCII字符,用两个字节表示8位ASCII字符

Unicode 与 UTF

[UCS] Universal Character Set (通用字符集) [UCS] Unicode Character Set (Unicode字符集) [UTF-8]Unicode/UCS Transformation Format-8 说明,由于UTF也适用于编码通用字符集UCS,故亦可称为『UCS transformation formats (UTF)』 Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编码.它是基于通用字符集(Universal Char

【转】关于字符编码，你所需要知道的（ASCII,Unicode,Utf-8,GB2312…）

转载地址:http://www.imkevinyang.com/2010/06/%E5%85%B3%E4%BA%8E%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81%EF%BC%8C%E4%BD%A0%E6%89%80%E9%9C%80%E8%A6%81%E7%9F%A5%E9%81%93%E7%9A%84.html 字符编码的问题看似很小,经常被技术人员忽视,但是很容易导致一些莫名其妙的问题.这里总结了一下字符编码的一些普及性的知识,希望对大家有所帮助. 还是得从ASC

python中，ascii,unicode,utf8,gbk之间的关系梳理

在计算机中,经常遇到编码问题,本节主要梳理下ascii,unicode,utf8,gbk 这几种编码之间的关系. ASCII 计算机中,所有数据都以0和1来表示.在一开始的时候,要表示的内容比较少,人们使用了ascii编码的方式来编码. ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 -

关于ASCII,Unicode和UTF-8

自己也不是很明白这些编码,百度了一下,整理出来与大家分享分享,在此感谢作者. 先说说这些编码 ANSI:最早的时候计算机ASCII码只能表示256个符号(含控制符号),这个字符集表示英文字母足够,其中,我们键盘上可见的符号的编码范围是从32到126(大小写英文字母.数字.英文符号等).但表示汉字.日语.韩语就不太够用了,汉字常用字有3000多个. 但是中国人也要用电脑打字,于是,中国人就研究出来了最早的中文字符集GB2312(GBK就是后来的扩展),GB2312的做法是,把ASC码取值范围的12

java中的char中unicode和utf的关系

char是Java的基础类型(原类型 ),是字符类型.在Java中字符是基于Unicode编码的,所以一个Java的字符占2个字节,字符的内容存的是unicode的码值(二进制数字).问题来了,程序是怎么把unicode的码值转换为我们要的程序数据?例如:汉字的'汉'对应的unicode码值为:0x6C49.我们想要的程序数据为'汉',而计算机存储的为码值.如何把码值‘0x6c49’显示为‘字’,需要一个转换过程. 这个转换过程需要一个转换规则.转换规则的书面写法为UTF(UCS Transfo

猜你喜欢

结合GATK和samtools以及picardtools call snp

刚开始学生物信息学,老师给了个以snp为标记来画遗传图的课题,研究了一段时间,开始用bwa+samtools来call snp,师姐以前用这套做过,她建议我用另外的方法来做,于是准备学下用GATK来做 ...

数据结构——动态链表（C++）

定义一个节点: #include <iostream> using namespace std; typedef int T; struct Node{ T data; Node* nex ...

Unreal4(虚幻4抽茧剥丝)——00章开卷语

大家好,Unreal4自从推出到现在已经2个月有余,本人有幸参加过2个Unreal3项目,Unreal的这次重大升级对于我们这些老用户来说绝对是一场饕餮盛宴,要学的东西很多!很多制作思路都变了!但无奈 ...

线上服务CPU100%问题快速定位实战--转

来自微信公众号架构师之路功能问题,通过日志,单步调试相对比较好定位. 性能问题,例如线上服务器CPU100%,如何找到相关服务,如何定位问题代码,更考验技术人的功底. 58到家架构部,运维部,58 ...

剑指offer——实现Power()

double和float类型小数在计算机中的存储都不精确,所以如果两个数的误差很小时则认为它们相等 class PowerTest{ public: double Power(double b ...

解决id_rsa权限不够的问题

错误描述: It is recommended that your private key files are NOT accessible by others. This private key w ...

备份Rhythmbox播放器的曲目和播放列表信息

Rhythmbox音乐播放器只能保存单个播放列表,如果在rhythmbox下建了很多播放列表(比如按歌手名分类),每个播放列表下包含一些歌曲,为了避免重装系统后重新建这些播放列表,可以备份下面的文件. ...

C#一个字符串的加密与解密

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.S ...

NOIP2009 Hankson的趣味题

题目描述 Description Hanks 博士是BT (Bio-Tech,生物技术) 领域的知名专家,他的儿子名叫Hankson.现在,刚刚放学回家的Hankson 正在思考一个有趣的问题.今天在 ...

LVS负载均衡集群（干货来袭）

提升服务器响应能力的方式: Scale On:向上扩展升级服务器硬件 Scale Out:向外扩展增加服务器个数集群类型: LB: Load Balance负载均衡集群并发处理能力 HA: H ...

iOS CoreData 开发之数据模型关系

接着上一篇,上一篇中,我们简单的实现了一个用户实体,本次添加一个用户信息实体,与用户实体相关联,关系为1:1. 新建一个实体UserInfo: 添加字段: 下面就建立关系用户信息和用户之间的关系: 这 ...

补上15的

今晚断网了所以只能现在这里先记着了,为期13天的第一阶段(杨洪波老师) 基础加强 ,和ADO.net结束了,在这里谢谢小杨老师,虽然不能说小杨老师课讲的透彻,但是,这也是我目前为止觉得还行的老师,其 ...

《云服务器》与《传统服务器》的区别

云服务器介绍 VPS是一种服务器的虚拟化技术,是采用虚拟软件KVM/xenserver/vmware等在单台服务器上虚拟出多个类似独立服务器的部分,每个部分都可以做单独的操作系统,管理方法同服务器一样 ...

5-4-十字链表（稀疏矩阵）-数组和广义表-第5章-《数据结构》课本源码-严蔚敏吴伟民版

课本源码部分第5章数组和广义表 - 十字链表(稀疏矩阵) ——<数据结构>-严蔚敏.吴伟民版源码使用说明链接??? <数据结构-C语言版>(严蔚敏,吴 ...

Matlab 三维绘图与统计绘图

一. 三维绘图 p = 0: pi/10: 20*pi; x = cos(p); y = sin(p); z = p; plot3(x,y,z) x = -2:.2:2; %有-2为起点,2为递增步长 ...

检測字符串长度

String.prototype.lengthB=function(){ varb=0,l=this.length; if(l){ for(var i = 0; i<l; i++) { if(t ...

（转）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(更快的RCNN：通过区域提议网络实现实时)

原文出处感谢作者~ Faster R-CNN: Towards Real-Time Object Detection with Region ProposalNetworks Shaoqing Re ...

const reduce = Function.bind.call(Function.call, Array.prototype.reduce);const isEnumerable = Functi ...

css书写规则总结

1. JavaScript钩子使用的class不能是css class,要加j或j-前缀 2. 选择器 2.1 css选择器尽量简短,层级要少,最好是1-2层例如:.nav{} 优于 ul.nav{ ...

不要困在自己建造的盒子里——写给.NET程序员（转）

从我个人的观点看,本文中“.NET程序员”是指具有如下特点的程序员群体: 学习.工作的技术范围均局限于.NET平台及衍生,对.NET之外的技术没有主动接触或学习的欲望.不断学习各种.NET平台上的库或 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.029 s.