Unicode, UTF-8 and ASCII 编码问题

编码问题，如何把语言及生活中的符号编码成计算机中的二进制表示出来。其中涉及到码表(code point)和编码方式。

码表就是字符与序号对应的表。例如Unicode和ASCII码就是码表。

编码方式就是怎么把序号编码成二进制的方式。UTF-8就是编码方式。

从码表转换到字节，就是编码(encoding)；从字节转换到码表就是解码(decoding)。编码和解码中的规则就是编码方式规定的。在解码的过程中，必须指定编码方式，如果指定的编码方式和原来的编码方式不同，就会出现各种乱码。

Python编码解码示例(来自《Fluent Python》)：

>>> s = 'café'
>>> len(s) # 字符串'café'有4个Unicode字符
4
>>> b = s.encode('utf8') # 用UTF-8编码成字节
>>> b
b'caf\xc3\xa9' #
>>> len(b) # é的对应码表在UTF-8中被编码成两个字节
5
>>> b.decode('utf8') # 再用UTF-8解码成字符串
'café'

Unicode实际上是一整套方案，其中包含一个码表，截止2019年5月，已经有137,994字符，包含了150多个现代、古代的字符以及emoji。Unicode还定义了UTF-8、UTF-16、UTF-32等编码方式。但一般提到Unicode都是指其中的码表。
Reference:

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

Fluent Python

原文地址：https://www.cnblogs.com/frodo-x/p/11623736.html

时间： 2024-10-19 07:33:07

Unicode, UTF-8 and ASCII 编码问题的相关文章

ascii、unicode、utf、gb等编码详解

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的字节一共可以组合出256(2的8次方)种不同的状态. 他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端.打印机遇上约定

聊聊计算机中的编码（Unicode，GBK，ASCII，utf8，utf16，ISO8859-1等）

作为一个程序员,一个中国的程序员,想来“乱码”问题基本上都遇到过,也为之头疼过.出现乱码问题的根本原因是编码与解码使用了不同而且不兼容的“标准”,在国内一般出现在中文的编解码过程中. 我们平时常见的编码有Unicode,GBK,ASCII,utf8,utf16,ISO8859-1等,弄清这些编码之间的关系,就不难理解“乱码”出现的原因以及解决办法. 所谓字符集编码其实就是将字符(包括英文字符.特殊符号,控制字符,数字,汉子等)与计算机中的一个数字(二进制存储)一一对应起来,用这个数字来表示该字符

Ansi,UTF8,Unicode,ASCII编码的差别

近日须要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了,以下全是从网上搜来的: 1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为单字节内码 -- Single-Byte character sets (SBCS),能够支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),能够支持65000个字符编码.前者

Ansi,UTF8,Unicode,ASCII编码的区别 ---我看完了明白了很多

来自:http://blog.csdn.net/xiongxiao/article/details/3741731 ------------------------------------------------------------------------ 近日需要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了,下面全是从网上搜来的: 1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码

SQL Server 中怎么查看一个字母的ascii编码或者Unicode编码

参考文章:微信公众号文章一直对sql中的left和right有误解,一直以为它是这样的. SELECT Mobile FROM dbo.T_User WHERE Id = 1 执行这样一句: SELECT LEFT(Mobile,2) leftNum FROM dbo.T_User WHERE Id = 1 SELECT RIGHT(Mobile,2) rightNum FROM dbo.T_User WHERE Id = 1 出现的结果是这样的: 而我心中这样认为: 我认为只出现第二个. 运

各种编码UNICODE、UTF-8、ASCII学习笔记

作者: 阮一峰日期: 2007年10月28日今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚. 下面就是我的笔记,主要用来整理自己的思路.但是,我尽量试图写得通俗易懂,希望能对其他朋友有用.毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识. 1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)

ASCII编码和Unicode编码

ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节. 字母A用ASCII编码是十进制的65,二进制的01000001: 字符0用ASCII编码是十进制的48,二进制的00110000,注意字符'0'和整数0是不同的: 汉字中已经超出了ASCII编码的范围,用Unicode编码是十进制的20013,二进制的01001110 00101101. 你可以猜测,如果把ASCII编码的A用Unicode编码,只需要在前面补0就可以,因此,A的Unicod

ASCII、Unicode、UTF-8 字符串和编码

字符编码我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 由于计算机是美国人发明的,因此,最早只有1

字符编码unicode，utf-8和ascii

Ascii编码由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母.数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122. 但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去. 你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结

UTF-8,Unicode,GBK,希腊字母读法,ASCII码表,HTTP错误码,URL编码表,HTML特殊字符,汉字编码简明对照表

UNICODE,GBK,UTF-8区别 UNICODE,GBK,UTF-8区别简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式．utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就O

猜你喜欢

向上造型演示

1 package oo.day04; 2 //向上造型演示 3 public class UpDemo { 4 public static void main(String[] args) { 5 ...

noip模拟赛#38

我打开了#39的problem...想了半个小时多发现我一道题都不会写...于是我打开了#38的problem T1:循环数字的定义为能够将该数划分为若干相同长度的段并且都相同. n=2e18. =& ...

L--jsp和servlet

简介用java开发web应用程序时用到的技术主要有两种,即servlet和jsp.Servlet是在服务器端执行的Java程序,一个被称为Servlet容器的程序(其实就是服务器) 负责执行Java ...

java基础，流程控制语句

流程控制语句条件语句: if语句: *if(条件 boolean类型){ true } *if(boolean表达式){true}else{false结果} *多重 if else i ...

sheel基础

基础教程http://www.k4.dion.ne.jp/~mms/unix/shellscript/shell_sample.html cat /dev/null > abc.log (cle ...

MFC中的Invalidate、OnDraw、OnPaint函数的作用

MFC中的Invalidate.OnDraw.OnPaint函数的作用 CWnd::Invalidate voidInvalidate( BOOL bErase = TRUE ); 该函数的作用是使 ...

宏定义的细节问题

示例代码: #define PERIMTER(X,Y) 2*X+2*Y int main() { int length = 5; int width = 2; int high = 8; int re ...

《自定义时代项目经理的自我修炼》

受控环境下项目管理的实践应用撰稿学员:李剑.马英卓.周志远 2017年6月17日,光环学友会大型讲座<自定义时代项目经理的自我修炼>顺利结束,本次讲座除了北京现场,上海.广州.以及远程全 ...

graph-Kruskal-algorithm

并查集是一种树型的数据结构,用于处理一些不相交集合(Disjoint Sets)的合并及查询问题.主要操作:1. 初始化:每个点所在集合初始化为其自身.2. 查找:查找元素所在的集合,即根节点.3. ...

[转] Making GTFS query more convenient

url:http://ontrakinfo.wordpress.com/2012/10/29/making-gtfs-query-more-convenient/ 这简直说出了我的心声. I have ...

论坛里面的题目收集

题目:输入一行字符,分别统计出其中数字.英文字母.数字和其他字符的个数 package Test; import java.io.*; //需求:输入一行字符,分别统计出其中数字.英文字母.数字和其他 ...

题解: 记忆化搜索 dp[i][x][y][z]表示在第i个位置时,第i个位置为x(第i个位置匹配),第i+1个位置为y,第i+2个位置为z时的最小数目代码: #include<iostrea ...

Caffe 执行python实例并可视化

. 配置python 安装的python需要是 Anaconda2,启动命令行执行如下安装. 1.1.安装 jupyter pip install jupyter 1.2.安装ipython ipyt ...

mac无密登陆到linux

最近弄了台linux云服务器,然而每次登陆linux都好麻烦,所以倒腾了下ssh无密登陆. linux:centos 6.5,自带ssh mac:yosemite,自带ssh 步骤: 1. 创建key ...

前言 OpenStack概念不多讲了,因为讲不明白.只了解过keystone,其他服务是干什么的,怎么用的,目前还没有驱动力去了解,所以就自觉闭嘴了,只贴一张比较有意思的图. Openstack社区非 ...

获取当前视图所在控制器的方法

/** *获取视图当前的控制器 **/ - (UIViewController*)viewController { for (UIView* next = [self superview]; next ...

数据类型，变量，与运算符

一.数据类型 int 整形如:1,2,3,等: double 双精度浮点型如:2.3, 3.4,等: String 字符串型如:" ","好" ...

关于研发和业务部门关系的一些思考

本人就职于一家通信设备制造企业,负责设备管理软件开发,管理着一个6人的小团队,部门规模40多个人.目前部门在内部和外部都遇到比较大的问题,内部人员流失严重,外部市场故障和产品项目压力大. 今天在一个通 ...

程序开发之结对合作

一.题目返回一个整数数组中最大子数组的和要求: 输入一个整形数组,数组里有正数有负数数组中连续的一个或多个整数组组成一个子数组,每个子数组都有一个和求所有子数组的和的最大值二.解题思路 1. ...

sap判断条件

EQ 等于= 等于NE 不等于<> 不等于>< 不等于LT 小于< 小于LE 小于等于<= 小于等于GT 大于> 大于GE ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.