七、编码、文件 / 憋错料

七、编码、文件

一、编码

1.1：内存和硬盘

CPU：从内存中读取程序的指令，然后解码并运行程序；
硬盘：永久保存数据；
内存：临时存储数据，任何程序运行都需事先加载到内存；
应用软件：调用操作系统提供的接口；间接地使用计算机硬件，加载到内存中；
操作系统：控制硬件，提供系统调用接口，加载到内存中；

1.2：文本编辑器存取文件的原理　　

　　例如（nodepad++,pycharm,word等），打开编辑器就可以启动一个进程，是在内存中的，所以在编辑器编写的内容也都是存放在内存中的，断电后数据就丢失了。因而需要保存在硬盘上，点击保存按钮或快捷键，就把内存中的数据保存到了硬盘上。在这一点上，我们编写的py文件（没有执行时），跟编写的其他文件没有什么区别，都只是编写一堆字符而已。

1.3：python解释器执行py文件的原理

例如python 、test.py：

　　第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器；

　　第二阶段：python解释器相当于文本编辑器，去打开test.py，从硬盘上将test.py的文件内容读入到内存中；

　　第三阶段：python解释器执行刚刚加载到内存中的test.py的代码（在该阶段，即执行时，才会识别python的语法，执行到字符串时，会开辟内存空间存放字符串）；

python解释器与文本编辑器相同点：python解释器是解释执行文件内容的，因而python解释器具备读py文件的功能，这一点与文本编辑器一样；

python解释器与文本编辑器不同点：文本编辑器将文件内容读入内存后，是为了显示/编辑，而python解释器将文件内容读入内存后，是为了执行（识别python的语法）；

1.3：编码解释

　　计算机想要工作必须通电，高低电平（高电平即二进制数1，低电平即二进制数0），计算机只认识数字，让计算机读懂人类的字符就必须经过：字符---------（翻译过程）-------------数字，实际就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码。

　　1.一个python文件中的内容是由一堆字符组成的（python文件未执行时）

　　2.python中的数据类型字符串是由一串字符组成的（python文件执行时）

1.5：编码的发展史

阶段一：

现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII；
ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符；
ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了（英文字符/键盘的所有其他字符）；
后来为了将拉丁文也编码进了ASCII表，将最高位也占用了；

阶段二:

为了满足中文，中国人定制了GBK；
GBK:2Bytes代表一个字符，为了满足其他国家，各个国家纷纷定制了自己的编码，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里；

阶段三：

各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码；
于是产生了unicode，　统一用2Bytes代表一个字符，　2**16-1=65535，可代表6万多个字符，因而兼容万国语言；
但对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间（二进制最终都是以电或者磁的方式存储到存储介质中的）；
于是产生了UTF-8，对英文字符只用1Bytes表示，对中文字符用3Bytes；

阶段四：

unicode：简单粗暴，多有的字符都是2Bytes,优点是字符--数字的转换速度快；缺点是占用空间大。
utf-8:精准，可变长，优点是节省空间；缺点是转换速度慢，因为每次转换都需要计算出需要多长Bytes才能够准确表示。
内存中使用的编码是unicode，用空间换时间（程序都需要加载到内存才能运行，因而内存应该是越快越好）
硬盘中或网络传输用utf-8，保证数据传输的稳定性。

1： 所有程序，最终都要加载到内存，程序保存到硬盘不同的国家用不同的编码格式，但是到内存中我们为了兼容万国（计算机可以运行任何国家的程序原因在于此），统一且固定使用unicode，
2： 这就是为何内存固定用unicode的原因，你可能会说兼容万国我可以用utf－8啊，可以，完全可以正常工作，之所以不用肯定是unicode比utf－8更高效啊（uicode固定用2个字节编码
3：utf－8则需要计算），但是unicode更浪费空间，没错，这就是用空间换时间的一种做法，而存放到硬盘，或者网络传输，都需要把unicode转成utf－8，
4： 因为数据的传输，追求的是稳定，高效，数据量越小数据传输就越靠谱，于是都转成utf－8格式的，而不是unicode。

1.6：字符编码转换

文件从内存刷到硬盘的操作简称存文件
文件从硬盘读到内存的操作简称读文件
乱码：存文件时就已经乱码或者存文件时不乱码而读文件时乱码

ascii：数字，字母 特殊字符。      字节：8位表示一个字节。      字符：是你看到的内容的最小组成单位。        abc ： a 一个字符。        中国：中 一个字符。          a : 0000 1011

unicode: 万国码    起初：   　　　　a : 0000 1011 0000 1011       中: 0000 1011 0000 1111    升级：   　　　　a : 0000 1011 0000 1011 0000 1011 0000 1011       中: 0000 1011 0000 1111 0000 1011 0000 1011

utf-8：最少用8位表示一个字符。         a: 0000 1011      欧洲： 0000 1011 0000 1011     亚洲中：0000 1011 0000 1011 0000 1011

gbk：国标         a: 0000 1011        中文：0000 1011 0000 1011 两个字节。

不同编码之间的二进制是不能互相识别的。
对于文件的存储，及传输不能是unicode的编码。

    python3x        int        bool        bytes:内部编码方式：(非unicode，utf-8,gbk.gb2312...)        str : 内部编码方式unicode        list        dict        tuple

bytes:内部编码方式：(非unicode，utf-8,gbk.gb2312...)str : 内部编码方式unicode

对于字母

str：

表现形式：s1 = ‘alex‘
内部编码：unicode

bytes：

表现形式：s2 = b‘alex‘
内部编码：非unicode

对于中文

str：

表现形式：s1 = ‘中国‘
内部编码：unicode

bytes：

表现形式：b1 = b‘\xe4\xb8\xad\xe5\x9b\xbd‘
内部编码：非unicode

例子：

unicode和utf-8之间的转换：

s1 = ‘alex‘
#将alex从unicode编码转换为utf-8
b1 = s1.encode(‘utf-8‘)
print(b1)
#输出结果：
b‘alex‘

s1 = ‘alex‘
b1 = b‘alex‘
print(s1.capitalize())
print(b1.capitalize())
#输出结果：
Alex
b‘Alex‘

s2 = ‘中国‘
b2 = s2.encode(‘utf-8‘)
print(b2)
#输出结果：
b‘\xe4\xb8\xad\xe5\x9b\xbd‘

unicode----->utf-8------>unicode

s1 = ‘alex‘
# str ---> bytes encode 编码
b1 = s1.encode(‘utf-8‘)
print(b1)
#bytes---> str  decode 解码
s2 = b1.decode(‘utf-8‘)
print(s2)
#输出结果：
b‘alex‘
alex

Unicode、gbk、utf-8之间的转换：

s1 = ‘alex‘
b2 = s1.encode(‘gbk‘)
s3 = b2.decode(‘gbk‘)
print(b2)
print(s3)
#输出结果：
b‘alex‘
alex

s1 = ‘alex‘
b1 = s1.encode(‘utf-8‘)
s2 = b1.decode(‘gbk‘)
print(s2)
#输出结果：
alex

utf-8、gbk之间的转换

s4 = ‘中国‘
b4 = s4.encode(‘utf-8‘) # utf-8 bytes
print(b4)
b6 = b4.decode(‘utf-8‘).encode(‘gbk‘)
print(b6)
#输出结果：
b‘\xe4\xb8\xad\xe5\x9b\xbd‘   #bytes类型的utf-8一个中文3个字节
b‘\xd6\xd0\xb9\xfa‘         #bytes类型的gbk一个中文2个字节

二、文件

原文地址：https://www.cnblogs.com/bingo1024/p/9064138.html

时间： 2024-08-14 12:06:10

七、编码、文件

一、编码

1.1：内存和硬盘

1.2：文本编辑器存取文件的原理

1.3：python解释器执行py文件的原理

1.3：编码解释

1.5：编码的发展史

阶段一：

阶段二:

阶段三：

阶段四：

1.6：字符编码转换

对于字母

对于中文

例子：

二、文件

七、编码、文件的相关文章

Linux 中的七种文件类型

Native2asciiUtil 文本文件转UNICODE编码文件（支持UTF-8,Unicode,UTF-16BE,ANSI|ASCII,GBK）

PKPJIB七牛文件上传管理

七牛文件批量上传之自定义NSOperation

java 打印流递归复制子文件子文件夹不同编码文件复制到同一文件中序列化流反序列化流

一、虚拟环境.二、路由配置主页与404.三、2.x路由分发.四、伪静态.五、request对象.六、FBV与CBV.七、文件上传.

[Xcode10 实际操作]七、文件与数据-(9)编码创建Plist文件(属性列表文件)

Python基础day-5[字符编码,文件处理,函数]

Linux下查看文件编码,文件编码格式转换和文件名编码转换

Python学习笔记七：文件操作