Python Unicode编码之UTF-8编码

一、UTF-8编码简介

　　UTF-8就是在互联网上使用最广的一种unicode的实现方式。UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

二、UTF-8编码规则　　

　　1.对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

　　2.对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码，如下表：

　　　 Unicode符号范围 | UTF-8编码方式
　　　　　　 (十六进制) | （二进制）
　　--------------------+---------------------------------------------
　　0000 0000-0000 007F | 0xxxxxxx
　　0000 0080-0000 07FF | 110xxxxx 10xxxxxx
　　0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
　　0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

三、UTF-8编码实例

　　以汉字“严”为例，演示如何实现UTF-8编码。

　　已知“严”的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此“严”的UTF-8编码需要三个字节，即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后，从“严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，“严”的UTF-8编码是“11100100 10111000 10100101”，转换成十六进制就是E4B8A5。

时间： 2024-10-22 03:13:13

Python Unicode编码之UTF-8编码的相关文章

python的u'字符串"（字符编码）：字符串前有u，表示字符串以unicode格式存储

举个例子 >>> s = u'\u6ce8\u91ca' >>> s u'\u6ce8\u91ca' >>> print s 注释 >>> print type(s) <type 'unicode'> >>> print s.encode('gbk') 注释字符串前加u表示为unicode编码,而当前文本的unicode编码可以设定, 比如utf-8编码就是第一行加上: # -*- coding: u

Python编程（三）字符编码与文件处理

计算机要想工作必须通电,也就是说'电'驱使计算机干活,而'电'的特性,就是高低电平(高低平即二进制数1,低电平即二进制数0),也就是说计算机只认识数字编程的目的是让计算机干活,而编程的结果说白了只是一堆字符,也就是说我们编程最终要实现的是:一堆字符驱动计算机干活所以必须经过一个过程: 字符--------(翻译过程)------->数字这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码字符编码 :字符-->二进制数字的标准阶段一:ASCII:一个Bytes代表一

python 第二章二进制运算、字符编码、数据类型

>>> len(s.ljust(50,'*'))50>>> 1.二进制转换: bin(342) '0b101010110' 2.ASCII码与二进制: 每一个ASCII码都是用8位表示,ASCII码一共有255个.每一位0或者1所占的空间单位为bit(比特),这是计算机中最小的表示单位,8位表示一个字节. 8bit = 1bytes(字节),最小的存储单位,1bytes缩写为1B 1KB = 1024B 1MB = 1024KB 1GB = 1024MB 1TB = 1

Python 学习之进制与编码

进制日常生活中,我们最熟悉的数据就是十进制计数.它的数值部分由十个不同的数字符号0.1.2.3.4.5.6.7.8.9来表示,我们把这些数字符号叫做数码,表示十种不同的状态.数码处于不同的位置(或数位)代表的意义是不同的. 二进制数的含义二进制数的每个数位只可能取两个不同的数码"0"和"1",而且是"逢二进一".为了熟悉二进制数的表示,我们就几个简单的数字,列出二进制数与其对应的十进制数.正如十进制数据中最大的数码是9一样,在二进制数据中最大

Python 学习第四弹：编码问题（转载）

关于python的编码问题一直以来不得解,终于在今天从这篇博文中明白了. 原文地址: http://nedbatchelder.com/text/unipain.html 译文地址:http://pycoders-weekly-chinese.readthedocs.org/en/latest/issue5/unipain.html 译者: yudun1989 实用Unicode编程指南这是我在 Pycon2012 所做的演讲.你可以阅读本页的幻灯片和文字,或者直接在浏览器中打开演示 ,或者

Python&MySQL操作过程中遇到的编码问题

对于Python字符编码的理解之前整理了一部分,这次主要是设计到数据库操作的. 下面是一些编码方面的概念和原理,以条目方式整理: CREATE DATABASE IF NOT EXISTS db_name DEFAULT CHARSET utf8 COLLATE utf8_general_ci; DEFAULT CHARSET是设置默认字符编码集,也就是数据在库内从存储编码,我的理解是在存储这个层面上的,如果SQL命令是以gbk方式传输数据的(cur.execute('SET NAMES ut

Python : 熟悉又陌生的字符编码（转自Python 开发者）

Python : 熟悉又陌生的字符编码字符编码是计算机编程中不可回避的问题,不管你用 Python2 还是 Python3,亦或是 C++, Java 等,我都觉得非常有必要厘清计算机中的字符编码概念.本文主要分以下几个部分介绍: 基本概念常见字符编码简介 Python 的默认编码 Python2 中的字符类型 UnicodeEncodeError & UnicodeDecodeError 根源基本概念字符(Character) 在电脑和电信领域中,字符是一个信息单位,它是各种文字和符号

【python】数据类型，字符串和编码

python笔记,写在前面:python区分大小写1.科学计数法,把10用e代替,1.23x10·9就是 1.23e9 或者 0.00012就是1.2e-42.转义字符 \ 或者 r''[相当于C#里的@]r代表 raw string里边的\不转义要表示 \ 就要写成 \\ 换行符可以用 '''内容''' ,也可以前面加上r显示例子: print('''1

Unicode 字符集与它的编码方式

正式内容開始之前,我们先来了解一个基本概念,编码字符集. 编码字符集:编码字符集是一个字符集,它为每个字符分配一个唯一数字.Unicode 标准的核心是一个编码字符集,字母"A"的编码为 004116 和字符""的编码为 20AC16.Unicode 标准始终使用十六进制数字,并且在书写时在前面加上前缀"U+",所以"A"的编码书写为"U+0041". 1 ASCII码我们知道,在计算机内部,全部的信息

Python中的字符串与字符编码

原文地址:点击这里本节内容: 前言相关概念 Python中的默认编码 Python2与Python3中对字符串的支持字符编码转换一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章.有的人云亦云,也有的写得很深入.近日看到某知名培训机构的教学视频中再次谈及此问题,讲解的还是不尽人意,所以才想写这篇文字.一方面,梳理一下相关知识,另一方面,希望给其他人些许帮助. Python2的默认编码是ASCII,不能识别中文字符,需要显式指定字符编码:Python3的

猜你喜欢

Microsoft Visual C++ Compiler for Python

Visual C++ |CPython ------------------------------------------- 14.0(2015) |3.5 10.0(2010) |3.3, 3.4 ...

POI 导出Excel 封装

package test; import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStrea ...

你真的深入理解计算机系统了吗之篇章一：程序与系统的交互

随着计算机的发展以及高级编程语言的出现,应用程序不仅仅要与硬件打交道,还要借助于一些系统的服务,这些系统不仅仅包括操作系统还有编译系统等,我们分别来介绍应用程序是如何与这些系统打交道的. 首先来看程序 ...

数据结构之堆栈

1 # include <stdio.h> 2 # include <malloc.h> 3 # include <stdlib.h> 4 5 typedef st ...

C++类const成员函数

c++类中可以用const关键字来声明不修改对象的成员函数,它使用时需要注意: 1.常量对象只能调用const成员函数 2.非常量对象可以调用const成员函数以下列代码为例,来解释: 1 clas ...

javascript常见错误

初学Javascript,每天总是被很小的问题折磨半天,今晚就有好几个小问题. 第一:全部使用双引号造成匹配错误 <input type="checkbox" onmouse ...

Windows 10开发基础——指针事件和操作事件（一）

主要内容: 1.指针事件 2.操作事件 1.指针事件指针事件由各种活动输入源引发,包括触摸.触摸板.笔和鼠标(它们替代传统的鼠标事件).指针事件基于单一输入点(手指.笔尖.鼠标光标),但不支持基于速 ...

【SICP练习】30 练习1.36

练习1.36 这道题要求我们根据书上的newline和display来完成一个新版本的fixed-point.根据题目内容我们分为如下步骤: 1.写出能够打印出计算中产生的近似值序列的函数. 2 ...

史上最全最正确的zabbix监控tomcat的方法

1.修改tomcat配置在catalina.sh文件里加入如下内容: CATALINA_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.man ...

MySQL（十四）

一.MySQL复制概述 1.复制进程 Mysql的复制(replication)是一个异步的复制,从一个Mysql instace(称之为Master)复制到另一个Mysql instance(称之S ...

全文本检索的应用

基本知识 1. SQL Server7 的 DeskTop 版中没有全文本检索. 2. 一个表只能有一个全文本检索. 3. 被检索的表必须有单列的唯一索引. 4. 全文本的索引存储在文件系统中,而非数 ...

自定义View——PorterDuffXfermode

楔子我们在自定义的过程,经常会遇到多个图形相交的问题(如下图),那么系统是如何处理图片相交部分的绘制的呢? View的基本框架(之后的代码都是基于该View): public class Porte ...

排序二：选择排序

基本思想: 每一趟(例如第i趟,i=0,1,2,...,n-2)在后面 n-i 个待排序的数据元素中选出关键字最小的元素,作为有序元素序列的第 i 个元素. #include <stdio.h& ...

第二阶段冲刺第五天(6月4号)

昨天做的事情: 分数查询界面的基本布局,与按钮设定事件绑定今天要做的事情: 在将excel表的内容导入数据库时,同时也对分数表的学生信息进行同步导入遇到的困难: 导入的时候运行报错数组越界,原因是 ...

Httperf：测试服务器能承载的最大服务！！！

项目背景我们需要对于自己的web服务器模拟现实环境进行测试!!! 实验环境: vmware workstation 11 centos6.5的系统下服务器:ip:192.168.0.39 Secu ...

Odoo9发行说明

2015年10月1日,期待已久的Odoo9正式发布.本文是Odoo9正式版发行说明,基于官网资料翻译. 译者: 苏州-微尘原文地址:https://www.odoo.com/page/odoo-9-r ...

复旦大学公开课：人工智能哲学笔记

复旦大学公开课:人工智能哲学本人学习理解 1 为何人工智能科学需要哲学的参与人工智能和哲学一样,本身的定义和研究方向就非常特别,对智能的认识本身就是对人对智慧有更深的认识哲学是研究人和世界的,所以, ...

undo表空间异常增大印发的空间不足问题

今日同事发现他负责的一个数据库服务器出现了异常,症状为UNDOTBS表空间增大,导致磁盘空间不足,其请我协助解决这个问题. 系统是linux的,原则上来讲这个问题其实很好解决,建立新的UNDOTBS表 ...

QML Image获取资源路径的细节

ML是门相当新的UI描述语言,因此在文档上总难免有疏漏之处,如果因此产生了bug,则就需要花费大量的时间去排查. 在最近笔者使用QML的过程中,在Image获取资源路径的细节上就出现了这样的情况. I ...

3.1 Zend_Db

1. Zend_Db_Adapter 10.1.2. 添加引号防止数据库攻击 10.1.3. 直接查询 10.1.4. 事务处理 10.1.5. 插入数据行 10.1.6. 更新数据行 $set = ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.