python基础一 ------Python 的编码

首先了解一下历史,但是本篇文章冗杂,如老太太裹脚布----------又臭又长

编码历史:

1. 计算机只能处理数字,文本文件只有转换为数字
    才能处理。8bit==1字节 所以一个字节能表示的最大的数就是255
    
    2. 美国人发明计算机。用英语,所有一个字节就表示了所有字符
    就是ASCII(一个字节) 编码就是美国人的标准编码
    
    3. 当中国人使用计算机时,需要表示中文字符,于是就发明了
    GB2312的编码格式,即用两个字节表示一个汉字。同理,其他语言国家
    也就创建了自己相应的编码。没有一个共同的标准,于是当不同语言用
    了不对应的编码就会产生乱码

4.为统一标准,Unicode 编码出现了,所有语言统一到一套编码
        Unicode与ASCII 编码比较
            1)  字母A: ASCII 十进制65,二进制就是 0100 0001
                汉字中 ASCII表示不了 采用Unicode编码为20013 二进制:01001110 00101101
            2)  为计算机识别统一长度,所以A 前面位置补0 即 00000000 0100 0001
        标准就此统一
    5. 标准统一了,乱码问题解决了,但是Unicode编码长度较长,但计算机英文为主,
    若内容若全是英文,Unicode编码就比ASCII编码多一倍存储空间,同时传输也多一倍
    怎么解决呢?
    
    6.要是Unicode 编码可以变化就好了,于是UTF-8 出现了
    utf-8 中,字母一个字节,一个汉字3个字节,特别生僻的4-6个
    于是节约了空间和存储

7,那么问题来了:计算机只认Unicode 编码
    utf-8 之间怎样转换的
    如图:

当需要被计算机识别时,就会加载到内存,此时采用的编码就必须是Unicode 编码
    当需要在网络中传输时,或者存储在文件中时,就采用UTF-8编码,为了节约空间成本
    所以就有了相互转化

python2 和python3 在Windows/Linux 上的编码转换

python2:

  在Windows:

    1. 先来看看window 本身是什么编码
                import sys
                sys.getdefaultencoding()
                #out: "utf-8"
            2.    字符串全部英文
                s1= "abc" -->  type(s1):str
                s2 = u"abc" --> type(s2):Unicode
                    u""的意义:表示将后面的字符串以unicode格式存储
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功

3.  当出现中文时:
                s1 = "你好"    --> GB2312编码。windows下
                s2 = u"你好"
                s1.encode("utf8")  报错
                s2.encode("utf8")  成功
                
                报错原因:
                    在内存中是以Unicode 进行编码的,但是
                s1 在传递过来时就是不是Unicode编码了(原因是存储浪费),而
                encode是将一个Unicode 对象转化为参数中的编码格式进行编码
                所以说 s2不会报错
                
                解决办法:
                    先将这个gb2312的编码转化为unicode编码的对象
                然后再转化为utf-8
                    s1.decode("gb2312").ecode("utf8")  成功  Windows下为"gb2312"
                    decode("xx")方法是将一个编码为"xx"的对象转化
                为Unicode对象

  在Linux下:

    1. 先来看看linux 本身是什么编码
                import sys
                sys.getdefaultencoding()
                #out: "ascii"            
            2.    字符串全部英文
                s1= "abc" -->  type(s1):str
                s2 = u"abc" --> type(s2):Unicode
                    u""的意义:表示将后面的字符串以unicode格式存储
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功
            3.  当出现中文时:
                s1 = "你好"    --> utf-8编码。Linux下 为啥不是ascii? 那ascii能表示中文吗?
            肯定是转化为了utf-8 了啊
                s2 = u"你好"
                s1.encode("utf8")  报错
                s2.encode("utf8")  成功
            解决办法:
                    先将这个utf-8的编码转化为unicode编码的对象
                然后再转化为utf-8
                    s1.decode("utf8").ecode("utf8")  成功  Linux下中文为"utf-8"
                等价于 s1 又转回去了,本身就是utf-8编码

python 3:

  在python3 中,所有的str类型的都是Unicode 格式编码,可以直接encode为"utf-8"
        
        在Windows:
            1.    字符串全部英文
                s1= "abc" -->  type(s1):str
                s2 = u"abc" --> type(s2):Unicode
                    u""的意义:表示将后面的字符串以unicode格式存储
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功
            2.  当出现中文时:
                s1 = "你好"    --> Unicode编码。windows下
                s2 = u"你好"    ---> 没有必要这样写 ,不加u"",3也认为这就是Unicode
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功  
        在Linux下: 跟在window 下一样

总结:

谈谈 #-*-coding:UTF-8 -*-

  python2与3 最大的区别:
                2 中当文件有中文出现时就必须在开头加上,而且汉字字符串必须加u""
            作用:
                  告知python 这个文件是按照utf-8格式编码的python就会按照这个编码进行解读,
                然后在内部进行Unicode转换
            为什么3中不用写:
                  3中Python都会将文件以Unicode进行解读
3

时间: 2024-08-27 14:30:17

python基础一 ------Python 的编码的相关文章

python基础之python中if __name__ == '__main__': 的解析

当你打开一个.py文件时,经常会在代码的最下面看到if __name__ == '__main__':,现在就来介 绍一下它的作用. 模块是对象,并且所有的模块都有一个内置属性 __name__.一个模块的 __name__ 的值取决于您如何应用模块.如果 import 一个模块,那么模块__name__ 的值通常为模块文件名,不带路径或者文件扩展名.但是您也可以像一个标准的程序样直接运行模块,在这 种情况下, __name__ 的值将是一个特别缺省"__main__". //////

python基础31[python IDE之Eclipse+PyDev]

一 入门IDE作为python的初学者,在语法和类库学习阶段,我们可以使用以下简单使用的IDE:1) Python SDK 自带的IDEL(Python GUI)2) Komodo-Edit3) NotePad++ 二 终极IDE 之 Eclipse+PyDev1 特点1)开源免费2)代码完成和调试3)重构refactor,项目浏览explorer和类库browser4)目前最新版支持python2.1~3.0,仍不支持最新的3.1 2 下载 1)Java JDK(Eclipse运行需要)2)P

python基础===pendulum '''Python datetimes made easy.'''

https://pypi.python.org/pypi/pendulum Pendulum的一大优势是内嵌式取代Python的datetime类,可以轻易地将它整合进已有代码,并且只在需要的时候才进行调用.作者精心调校了时区,确保时区准确,还让每个实例都对时区敏感,默认使用UTC.还有就是提供了扩展的timedelta,使datetime计算更加容易. 与现有的其他库不同,它提供了一个可预测行为的API,这样就可以知道后面会发生什么.如果你正开发使用datetimes的复杂项目,这个库能让你更

python 基础 -02 运算符和编码

一 格式化输出  %s就是代表字符串占位符,除此之外,还有%d, 是数字占位符, 如果把上面的age后面的换成%d,就代表你必须只能输入数字, 这时对应的数据必须是int类型. 否则程序会报错 使用时,需要进行类型转换. int(str) # 字符串转换成int str(int) # int转换成字符串 现在又来了新问题 . 如果想输出: 我叫xxx, 今年xx岁了,我们已经学习了2%的python基础了 在字符串中如果使用%s这样的占位符. 那么所有的%都将变成占位符. 我们的2%也变成占位符

python基础数据类型补充以及编码进阶

01 内容大纲 基础数据类型的补充 数据类型之间的转换 编码的进阶 02 具体内容: 数据类型的补充: str # str :补充的方法练习一遍就行. s1 = 'taiBAi' # capitalize 首字母大写,其余变小写 print(s1.capitalize()) # swapcase 大小写翻转 print(s1.swapcase()) # title 每个单词的首字母大写 msg= 'taibai say3hi' print(msg.title()) s1 = 'barry' #

python基础数据类型补充以及编码的进阶

一. 基础数据类型补充内容 1.1 字符串 字符串咱们之前已经讲了一些非常重要的方法,剩下还有一些方法虽然不是那么重要,但是也算是比较常用,在此给大家在补充一些,需要大家尽量记住. #captalize :首字母大写 #swapcase :大小写翻转 #title :每个单词的首字母大写 #center :内同居中,总长度,空白处填充 #寻找字符串中的元素是否存在 #find :返回的找到的元素的索引,如果找不到返回-1 #index :返回的找到的元素的索引,找不到报错. #captalize

老王python基础篇--python, 视频, 教程, 视频教程, 基础

老王python基础篇 基础篇11-python基本数据结构-元组和集合.rar 基础篇19-python语句与数据结构应用.rar 基础篇21-文本操作应用.rar 基础篇3-虚拟机安装xubuntu开发环境.rar 基础篇17-python语句1.2.rar 基础篇10-python基本数据结构-列表应用.rar 基础篇9-python基本数据结构-列表.rar 基础篇5-python基本数据类型讲解1.1.rar 基础篇18-基础篇综合习题.rar 基础篇8-python基本数据类型习题解

Python基础篇-Python基础语法

Python基础语法 为什么学习python Python的安装 rpm -q python uname -r python -V yum -y install python-pip pip install ipython         支持 2.7 pip install ipython==1.2.1                支持 2.6

麦子学院 Python基础+Pythonweb+Python扩展+Python选修四大专题 视频j教

课程简介:目录:第一阶段:python基础准备第二阶段:Pythonweb开发第三阶段:Python扩展开发第四阶段:Python开发选修 下载地址:百度网盘 原文地址:http://blog.51cto.com/13888870/2150467