python基础===codecs打开文件,解决文件编码格式的问题

codecs

https://docs.python.org/3/library/codecs.html

我们经常用open打开文件的时候会出现各式各样的错误,编码格式的问题,等等~真的很烦

现在尽量使用codecs的方式打开文件

txt文档是这样的,使用open()的方式,打开直接报错。

那么使用codecs的方式,如下:

import codecs

f = codecs.open("123.txt","r","utf-8")
words = f.read()

基本使用到现在没有出现错误!



为了获取id我们还需要使用正则匹配

import re
import codecs

f = codecs.open(r"78.txt","r","utf-8")
words = f.read()
p = re.compile(‘ ID="(.*?)" IsException‘, re.S)
ids = re.findall(p , words)       #ids这里是以list的形式储存
s = ‘\n‘.join(ids)                #每一项都换行打印
print(s)

>>>

最终得到id

原文地址:https://www.cnblogs.com/botoo/p/8316077.html

时间: 2024-10-12 20:28:19

python基础===codecs打开文件,解决文件编码格式的问题的相关文章

python基础之字符编码及文件操作

一.了解字符编码前的知识储备 1.计算机运行程序或读取文件的原理 为了使计算机运行速度不被I/O操作速度拖慢,CPU并不会直接从硬盘中读取数据,因为硬盘的读写速度和CPU相差太大,所以CPU都是从速度相对较快的内存中读取数据的.而程序文件和文本文件为了永久保存又都保存在硬盘中,因此计算机运行程序或读取文件的过程一般是这样的,先由操作系统控制硬盘将程序文件或文本文件读取到内存中,然后CPU再从内存中读取数据运行或者输出到终端打印到屏幕上. 2.文本编辑器读取文件原理 2.1文本编辑器程序文件读取到

python 基础之字符编码和文件处理

一.字符编码 (1)计算机基础知识 (2)python 解释器执行py文件的原理 <1>python 解释器启动 <2>python解释器相当于一个文本编辑器,打开txt.py文件,从硬盘把txt.py文件内容读到内存中 <3>python解释器解释刚刚加载到内存中的txt.py的代码(在该阶段及执行时,才会识别python的语法,执行文件内存代码,执行到name="egon",会开辟内存空间存放字符串"egon")  (3)py

Python基础教程 第11章: 文件和流 学习笔记

本文部分内容转载于: http://www.runoob.com/python/python-files-io.html http://docs.pythontab.com/python/python2.7/inputoutput.html#tut-files 打开文件: 你必须先用Python内置的open()函数打开一个文件,创建一个file对象,相关的辅助方法才可以调用它进行读写.语法: file object = open(file_name [, access_mode][, buff

python基础(九):文件

文件的打开与关闭 file=open(file_path,mode='r')其中file_path为文件路径(绝对路径和相对路径都是可以的),mode是文件的打开方式.open()函数会返回一个文件对象,我们可以通过这个文件对象来操作文件. file.flush()刷新缓冲区. file.close()关闭文件. 文件打开方式 参数值 打开方式 文件存在 文件不存在 光标位置 r(默认) 只读 正常 报错 0 w 只写 覆盖 新建 0 x 只写 报错 新建 0 a 只写 正常 新建 末尾 附加值

Python基础【day03】:文件操作

对文件操作流程 打开文件,得到文件句柄并赋值给一个变量 通过句柄对文件进行操作 关闭文件 现有文件如下 + 基本操作 1 2 3 4 5 6 7 8 f = open('lyrics') #打开文件 first_line = f.readline() print('first line:',first_line) #读一行 print('我是分隔线'.center(50,'-')) data = f.read()# 读取剩下的所有内容,文件大时不要用 print(data) #打印文件 f.cl

Python基础(集合用法、文件操作、字符编码转换、函数)

集合(Set)及其函数 集合是一个无序的.无重复元素的序列. 1 list = {1, 3, 6, 5, 7, 9, 11, 3, 7} # 定义集合方式一 2 list1 = set([1, 3, 6, 5, 7, 9, 11, 3, 7]) # 定义集合方式二 3 list2 = set() # 定义一个空集合 4 5 print(list1, list) # 打印后可看到,集合中的元素已自动去重 6 print(3 in list) # 判断一个元素是否在集合中,返回bool值 7 pri

python基础(十四)--文件操作

1,文件操作.    模特主妇护士老师.txt    1,文件路径:d:\模特主妇护士老师.txt    2,编码方式:utf-8 gbk ....    3,操作方式:只读,只写,追加,读写,写读.....        以什么编码方式储存的文件,就以什么编码打开进行操作. 只读:r          rb        f = open('模特主妇护士班主任',mode='r',encoding='utf-8')        content = f.read()        print(

重修课程day6(python基础4之集合和文件操作)

一 字典属性方法补充 1 clear  :清空 2 Cory:拷贝 3 fromkeys:生成一个字典,类下面的一个属性方法 4 pop  :删除 5 popitem  : 删除整个元素 6 setdefault:只添加不修改 7 update :存在的话跟新,没有就会添加 二 集合以及集合的功能 集合是一个不存在重复的值,而且还是无序的. 1 add :添加不可能重复 2 clear :清空 3 copy :拷贝 4 difference :差集只存在一个集合的 5 difference_up

Python自动化开发课堂笔记【Day03】 - Python基础(字符编码使用,文件处理,函数)

字符编码使用 1. 文本编辑器如何存取文件 文本编辑器相当一个运行在内存中的进程,所以文件内容在编辑未存储时都是在内存中的,尚未存储在硬盘之中,在没有保存之前,所编辑的任何文本都只是一堆字符,没有任何逻辑上的意义,当存储文件的时候需要以一定的编码格式存储于硬盘之中,当进行文件读取的时候也需要以同样的编码格式进行读取到内存之中进行操作,如果存储文件的编码和读取文件的编码不一致则会引起读取过程中的乱码导致文件操作失败. P.S. --> Python解释器执行py文件的原理. Step1. Pyth