Python基础-第五天-常用模块

本篇内容:

1.sys模块

2.os模块

3.time模块和datetime模块

4.random模块和string模块

5.shutil模块

6.json模块和pickle模块

7.shelve模块

8.hashlib模块和hmac模块

9.logging模块

10.re模块

一、sys模块

1.sys模块简介

sys模块是Python标准库中自带了一个模块,sys模块负责程序与python解释器的交互,提供了一系列的函数和变量,用于操控python的运行时环境

2.sys模块的使用

①python的环境变量

print(sys.path)  # 返回一个列表,显示出python默认的环境变量
sys.path.append(path)  # 将导入文件或模块的路径添加到sys.path中,追加的方式添加;
sys.path.insert(0, path)  # 将导入文件或模块的路径添加到sys.path中,添加在列表的最前面;(推荐)

②获取命令行的参数

print(sys.argv)  # 返回一个列表,第一个元素是脚本名,第二个元素是脚本后跟的第一个参数,以此类推
print(sys.argv[0])  # 返回脚本名
print(sys.argv[1])  # 返回脚本后跟的第一个参数
print(sys.argv[2])  # 返回脚本后跟的第二个参数

③标准输出

# linux上yum安装软件时进度条示例
for i in range(20):
    sys.stdout.write("#")  # 将“#”通过标准输出显示到屏幕上
    sys.stdout.flush()  # 刷新内存,不然只能等到循环结束才能显示出内容
    time.sleep(0.1)  # 每隔0.1秒显示出内容

④其他用法

print(sys.version)  # 显示出当前使用的python解释器版本信息

print(sys.platform)  # 显示当前使用的是什么操作系统平台,windows会显示win32,linux会显示linux2

print(sys.getdefaultencoding())  # 显示系统默认字符编码

sys.exit(n)  # 退出程序,n是返回值

二、os模块

1.os模块简介

os模块是Python标准库中自带了一个模块,os模块负责程序与操作系统的交互,提供了访问操作系统底层的接口。

2.os模块的使用

①与操作系统相关操作

print(os.name)  # 查看当前使用的系统平台,Windows返回‘nt‘,Linux返回‘posix‘。

os.system(shell command)  # 调用系统shell的命令,windows和linux都能使用。

print(os.environ)  # 获取系统环境变量PATH,windows和linux都能使用。

②与目录相关操作

os.mkdir(directory)  # 创建单级目录,相当于shell中mkdir dirname。
os.makedirs(directory1/directory2)  # 递归生成多层目录;

os.removedirs(directory1/directory2)  # 若目录为空,则删除,并递归到上一级目录,如若也为空,则删除,依此类推;
os.rmdir(directory)  # 删除指定目录,只能删除目录。只能删除单级空目录,若目录不为空,则无法删除,会报错。

print(os.path.isdir(directory))  # 判断指定对象是否为目录。是True,否则False;

print(os.listdir(directory))  # 列出指定目录下的所有文件和子目录,包括隐藏文件,并以列表方式打印;

for root_path, directory, file in os.walk(directory):
    print("目录的绝对路径:", root_path)
    print("目录中的子目录:", directory)
    print("目录中的文件:", file)
# os.walk能遍历目录中的文件。注意,会遍历目录中的子目录,一直到最后一级才会停止。
# root_path是一个string,为起始路径(即目录的绝对路径)。
# directory是一个list,为起始路径下的文件夹(即所在目录中的所有子目录)。
# file是一个list,为起始路径下的文件(即所在目录中的所有文件)。

③与文件相关操作

print(os.path.isfile(file))  # 判断指定对象是否为文件,要写成绝对路径的方式。是返回True,不是则返回False;

os.remove(file)  # 删除指定文件,只能删除文件。

print(os.path.getsize(file))  # 获取文件大小,空文件返回的是0,默认单位是字节。如果指定的是目录则返回0L;

print(os.path.splitext(file))  # 返回一个包含两个元素的元组,第一个元素是文件名,第二个元素是文件的扩展名。

④目录和文件通用操作

os.rename(oldname, newname)  # 文件或目录重命名;

print(os.stat(directory or file))  # 获取文件或目录的信息,包括uid、gid、size等等;

⑤路径相关操作

print(os.path.exists(path))  # 如果路径存在,则返回True。如果路径不存在,则返回False;

print(os.getcwd())  # 得到当前工作的目录(绝对路径),即当前Python脚本工作的目录路径。

os.chdir(dirname)  # 改变当前脚本工作目录;相当于shell下cd;

print(os.path.abspath(file))  # 返回文件规范化后的绝对路径;

print(os.path.split("文件的绝对路径"))  # 将文件的绝对路径分割成目录和文件名,放进元组后并返回;
print(os.path.dirname("文件的绝对路径"))  # 返回一个元组,即文件的绝对路径的目录部分。
print(os.path.basename("文件的绝对路径"))  # 返回文件的绝对路径的文件名部分。如果路径是以"/"或"\"结尾,那么就会返回空值。

print(os.path.isabs(path))  # 如果路径是绝对路径,则返回True;不是绝对路径,则返回False;

print(os.path.join(path1, path2, path3))  # 将多个路径组合后返回。注意,如果路径中存在绝对路径,绝对路径之前的参数将被忽略;

三、time模块和datetime模块

1.time模块使用

print(time.time())  # 时间戳,显示的是从1970年1月1日00:00:00开始到当前的浮点秒数。

print(time.localtime())  # 返回本地时间的struct time对象格式。参数只能接收秒;
print(time.localtime(time.time() + 3600 * 3))  # 例如在当前时间基础上多加三小时
time.struct_time(tm_year=2017, tm_mon=7, tm_mday=17, tm_hour=19, tm_min=55, tm_sec=18, tm_wday=0, tm_yday=198, tm_isdst=0)

time.sleep(seconds)  # 延迟代码执行的作用。默认单位是秒。注意,在sleep的时间段内是不会占用CPU时间;

# 按照自定义的格式显示当前时间
print(time.strftime("%Y-%m-%d %X"))  # Y代表年,m代表月,d代表日,X代表小时分钟秒。
2017-07-17 17:09:40

string_struct_1 = time.strptime("2017/07/17","%Y/%m/%d")  # 将字符串格式转成时间对象;
struct_stamp_1 = time.mktime(string_struct_1)  # 将时间对象转换成时间戳,转成时间戳后就可以做运算

string_struct_2 = time.localtime(struct_stamp_1)  # 将时间戳转换成时间对象
string = time.strftime("%Y/%m/%d", string_struct_2)  # 将时间对象转成字符串格式

2.datetime模块使用

# 返回本地时间,格式为“年-月-日 小时:分钟:浮点秒数”。返回的时间为日期时间类型;
# 日期时间类型的时间能做运算
print(datetime.datetime.now())

print(datetime.datetime.now() + datetime.timedelta(minutes=30))  # 在当前时间基础上加30分钟
print(datetime.datetime.now() - datetime.timedelta(hours=3))  # 在当前时间基础上减3小时
print(datetime.datetime.now() + datetime.timedelta(3))  # 在当前时间基础上加3天,参数默认为天;

print(datetime.datetime.now().replace(year=2018, month=1, day=1, hour=1, minute=1, second=1))  # 时间替换
2018-01-01 01:01:01.996065

print(datetime.datetime.strptime("2021-01-01", "%Y-%m-%d"))  # 将字符串转换成日期时间类型
2021-01-01 00:00:00

print(datetime.datetime.now().strftime("%Y-%m-%d_%H:%M:%S"))  # 将日期时间类型转换成字符串
2017-07-18_23:12:51

print(datetime.datetime.now().year)  # 将日期时间类型的时间单独取出年,也可以取月、日、时、分、秒;
2017

# 通过replace直接对日期时间类型的时间进行修改,可以修改年月日时分秒。
after_5_years = datetime.datetime.now().year + 5
print(datetime.datetime.now().replace(year=after_5_years))
2022-07-18 23:18:37.253450

四、random模块和string模块

1.random模块使用

random模块是生成随机数的模块

print(random.random())  # 随机打印一个小于一大于零的小数
0.8574527726862693

print(random.randint(1, 3))  # 从1、2、3三个数中随机打印出一个数,顾头顾尾
3

print(random.randrange(1, 3))  # 从1、2两个数中随机打印出一个数,顾头不顾尾
1

print(random.sample(range(100), 5))  # 在0到100之间随机打印出5个数,打印的5个数中不会有重复的数
[12, 66, 32, 64, 33]

print("".join(random.sample("abcde12345", 5)))  # 在abcde12345中随机打印出5个,打印的5个中不会有重复的
b2a3c

2.string模块使用

print(string.printable)  # 获取所有字符,包括数字、大小写字母、特殊标点符号和空格符号
0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&‘()*+,-./:;<=>[email protected][\]^_`{|}~ 	

print(string.ascii_lowercase)  # 获取小写字母

print(string.ascii_uppercase)  # 获取大写字母

print(string.ascii_letters)  # 获取大小写字母

print(string.digits)  # 获取数字

print(string.ascii_letters + string.digits)  # 将大小写字母和数字拼接在一起

五、shutil模块

1.shutil模块简介

shutil是一个能对文件、文件夹、压缩包处理的高级模块;

2.shutil模块对文件进行拷贝、移动和删除操作

①将文件内容拷贝到另一个文件中

with open("test01", "r", encoding="utf-8") as f_old,         open("test02", "w", encoding="utf-8") as f_new:

    shutil.copyfileobj(f_old, f_new)  # 将test01中的内容拷贝到test02中

②拷贝文件

shutil.copyfile("test01", "test02")  # 拷贝test01并命名为test02。注意必须要有对test02写的权限;

③仅拷贝权限,内容、组、用户均不变,不拷贝状态信息。

shutil.copymode("test01", "test02")  # 将test01的权限拷贝给test02。注意test02必须要存在;

④拷贝所有的状态信息,包括,组,用户,时间等,不拷贝权限信息。

shutil.copystat("test01", "test02")  # 将test01的状态信息拷贝给test02。注意test02必须要存在;

⑤拷贝文件及权限

shutil.copy("test01", "test02")  # 拷贝test01并命名为test02,也会拷贝test01的权限

⑥拷贝文件和文件的所有状态信息

shutil.copy2(src, dst)

⑦递归的去拷贝文件及状态信息

shutil.copytree(olddir, newdir, True/Flase)

把olddir及其中包含的文件拷贝成为newdir,如果第3个参数是True,则复制目录时将保持文件夹下的符号连接,如果第3个参数是False,则将在复制的目录下生成物理副本来替代符号连接;

⑧删除文件

shutil.rmtree(path)

目录中如果没有包含文件,则删除目录。目录中如果包含文件了,则删除目录及目录内的所有文件。

⑨移动文件

shutil.move(src, dst)

目录中如果没有包含文件,则移动目录。目录中如果包含文件了,则移动目录及目录内的所有文件。

3.shutil模块对文件进行打包和压缩操作

shutil.make_archive(base_name, format, root_dir, owner, group, logger)

参数详解:

base_name:压缩包的文件名,可以是相对路径或绝对路径。当只写了文件名时,则保存至当前目录。如果写的是绝对路径加文件名,则保存至指定路径;如,www是保存至当前路径,/Users/wupeiqi/www是保存至/Users/wupeiqi/目录下,文件名是www。

format:压缩包种类,可以是“zip”, “tar”, “bztar”,“gztar”;

root_dir:要压缩的目录路径(默认当前目录)。注意,只能是目录;

owner:用户,默认当前用户;

group:组,默认当前组;

logger:用于记录日志,通常是logging.Logger对象;

六、json模块和pickle模块

什么是序列化和反序列化:

●把内存中的数据类型变成字符串后存储或传输的过程叫做序列化;

●把存储或传输的字符串变成内存中的数据类型的过程叫做反序列化;

1.json模块

json模块用于字符串和python数据类型间进行转换;

json模块只能处理python的字典、列表、字符串等简单的数据类型,不能处理函数。

①json模块序列化

●json.dump(),将内存对象转换后能直接存到文件中

with open("文件名", "w", encoding="字符编码") as 文件句柄:
    json.dump(内存对象, 文件句柄)

●json.dumps(),将内存对象转换为字符串,如果要保存到文件中,需要再对文件进行操作。

json.dumps(内存对象)

②json模块反序列化

●json.load(),从文件中取出数据后并再转换成内存对象。

with open("文件名", "r", encoding="字符编码") as 文件句柄:
    内存对象 = json.load(文件句柄)

●json.loads(),先通过read()取出数据,然后再通过loads()将取出的数据转换成内存对象。

json.loads(取出的文件数据)

2.pickle模块

pickle模块用于python特有的类型和python的数据类型间进行转换。能处理python所有的数据类型,比如函数;

①pickle模块序列化

●pickle.dump(),将内存对象转换成字符串后并再保存到文件中。

with open("文件名", "wb") as 文件句柄:
    pickle.dump(obj, file即文件句柄, protocol=None, fix_imports=True)

参数详解:

protocol:为序列化使用的协议版本。0代表ASCII协议,所序列化的对象使用可打印的ASCII码表示。1代表老式的二进制协议。2是2.3版本引入的新二进制协议,较以前的更高效。其中协议0和1兼容老版本的python。缺省情况下,dumps()和dump()使用可打印的ASCII表示来创建pickle。

file:对象保存到的类文件对象。如果protocol >= 1,文件对象需要用二进制模式打开;

fix_imports:(可选),如果为True,则该参数指定用更快以及更小的二进制表示来创建 pickle。fix_imports参数默认为True,所以是用更小的二进制表示来创建 pickle。

●pickle.dumps(),将内存对象转换为字符串,如果要保存到文件中,需要再对文件进行操作。

pickle.dumps(obj, protocol=None, fix_imports=True)

参数详解:

protocol:为序列化使用的协议版本。0代表ASCII协议,所序列化的对象使用可打印的ASCII码表示。1代表老式的二进制协议。2是2.3版本引入的新二进制协议,较以前的更高效。其中协议0和1兼容老版本的python。缺省情况下,dumps()和dump()使用可打印的ASCII表示来创建pickle。

fix_imports:(可选),如果为True,则该参数指定用更快以及更小的二进制表示来创建 pickle。fix_imports参数默认为True,所以是用更小的二进制表示来创建 pickle。如果protocol >= 1,文件对象需要用二进制模式打开;

②pickle模块反序列化

●pickle.load(),从文件中取出数据后并再转换成内存对象。

with open("文件名", "rb") as 文件句柄:
    内存对象 = pickle.load(文件句柄)

●pickle.loads(),先通过read()取出数据,然后再通过loads()将取出的数据转换成内存对象。

pickle.loads(取出的文件内容)

七、shelve模块

1.shelve模块简介

shelve模块是一个简单的key-value将内存数据通过文件持久化的模块,可以持久化任何pickle可支持的python数据格式;

shelve模块相比json模块和pickle模块不同之处是:shelve模块能dump多次,也能load多次。而json模块和pickle模块能dump多次,但只能load一次。

数据保存在三个文件中:文件名.bak、文件名.dat、文件名.dir,这三个文件保存的内容是一样的,只是采用的字符不一样。

2.shelve模块的使用

①序列化

import shelve

d = shelve.open("shelve_test")  # 打开文件,获取一个shelve对象。该文件是存储数据的文件。

info_dict = {"name": "alex", "age": "26"}

info_list = [1, 2, "a", "b"]

d["test_dict"] = info_dict  # 自定义key,value是Python内存对象

d["test_list"] = info_list

d.close()  # 关闭文件

②反序列化

import shelve

f = shelve.open("shelve_test")  # 打开文件,获取一个shelve对象。该文件是存储数据的文件。

info_dict = f["test_dict"]  # 取出value,value为Python内存对象

info_list = f["test_list"]

f.close()  # 关闭文件

八、hashlib模块和hmac模块

hash的特点:只要输入的内容是固定的,输出的内容就是固定的。

MD5是在hash基础上做的,只要文件内容没改动,MD5的值都是一样的。

通过MD5算法算出的值是不可逆的,即无法通过MD5值反解出明文内容。

1.hashlib模块

hashlib模块用于加密相关的操作,在Python 3.x版本中代替了md5模块和sha模块,主要提供 SHA1、SHA224、SHA256、SHA384、SHA512和MD5算法。

Python 3.x版本中hashlib模块只能处理bytes类型;

①hashlib模块使用MD5算法

●加密

import hashlib

m = hashlib.md5()

# 对hello进行md5
# Python 3.x版本中hashlib模块只能处理bytes类型
m.update(b"hello")

print(m.digest())  # 以2进制格式显示
b‘][email protected]*\xbcK*v\xb9q\x9d\x91\x10\x17\xc5\x92‘

print(m.hexdigest())  # 以16进制格式显示
5d41402abc4b2a76b9719d911017c592

●比较文件一致性

import hashlib

m = hashlib.md5()

m.update(b"hello")
print(m.hexdigest())  # 打印hello的md5值
5d41402abc4b2a76b9719d911017c592

m.update(b"hi")
print(m.hexdigest())  # 打印hello和hi的md5值
71b37739883f2e3059b5c465e5b85f2e

m2 = hashlib.md5()

m2.update(b"hellohi")
print(m2.hexdigest())  # 打印hello和hi的md5值
71b37739883f2e3059b5c465e5b85f2e

②SHA1算法、SHA224算法、SHA256算法、SHA384算法、SHA512算法

都是不同的MD5算法,但比MD5算法更安全

SHA256算法使用的也是最多的。SHA512算法是最安全,但加密花的时间最长

使用各种算法的语法都一样,这里以使用SHA1算法来举例

import hashlib

m = hashlib.sha1()

m.update(b"hello")

print(m.hexdigest())
aaf4c61ddcc5e8a2dabede0f3b482cd9aea9434d

③添加自定义key再来做加密,以SHA256算法举例

import hashlib

m1 = hashlib.sha256()
m1.update(b"hello")
print(m1.hexdigest())
2cf24dba5fb0a30e26e83b2ac5b9e29e1b161e5c1fa7425e73043362938b9824

m2 = hashlib.sha256(b"[email protected]#")  # 添加key,注意key也转成bytes类型
m2.update(b"hello")
print(m2.hexdigest())
0b4e144bd09eba219d684a925315007b49c77e378cbc24e1bf13fbcaf3e4afef

2.hmac模块

hmac模块,它内部对我们创建的key和内容进行处理,然后再加密;

比SHA256算法还要快;

添加自定义key再来做加密

import hmac

# 注意,需要加密的内容要转成bytes类型。添加的key也要转成bytes类型;
# 括号中第一个是添加的key,第二个是需要加密的内容
h = hmac.new(b"[email protected]#", b"hello")

print(h.hexdigest())    # 以16进制格式显示
106b0ebd740015cab746eedcda3bd88e

九、logging模块

1.logging模块简介

logging模块用于便捷记录日志且线程安全的模块;

很多程序都有记录日志的需求,并且日志中包含的信息有正常的程序访问日志,还可能有错误、警告等信息输出,python的logging模块提供了标准的日志接口,可以通过它存储各种格式的日志。

logging的日志级别从低到高依次可以分为 :debug()、info()、warning()、error()、critical()5个级别。只有大于等于当前日志等级的日志才会被记录或打印。

2.logging模块记录日志涉及四个主要类

①logger:提供了应用程序可以直接使用的接口,用户调用的时候直接调用logger。

每个程序在输出信息之前都要获得一个Logger。Logger通常对应了程序的模块名。

在上面所举的例子中,由于没有指定Logger,所以Logger则对应的是程序的模块名,即logging就是默认的logger,要通过logger来打印日志信息。

②handler:将(logger创建的)日志记录发送到合适的位置(屏幕、文件、远程机器、邮件)输出;

handler对象负责发送相关的信息到指定目的地。Python的日志系统有多种Handler可以使用。有些Handler可以把信息输出到控制台,有些Logger可以把信息输出到文件,还有些 Handler可以把信息发送到网络上。如果觉得不够用,还可以编写自己的Handler。可以通过addHandler()方法添加多个多handler。

③filter:提供了细度设备来决定输出哪条日志记录。例如,能过滤出包含指定字段的日志。这个功能用的比较少;

④formatter:决定日志记录的最终输出格式;

日志格式对象名 = logging.Formatter(format="格式代码", datefmt="指定的日期/时间格式"):定义输出到handler的日志格式。注意,fmt指定的格式代码之间还可以自定义添加字符串:

logging.Formatter()参数详解:

format指定的格式代码:

%(name)s:Logger的名字;

%(levelno)s:数字形式的日志级别。例如DEBUG的值是10;

%(levelname)s:文本形式的日志级别。例如DEBUG、WARNING等等;

%(pathname)s:调用日志输出函数的模块的完整路径名(绝对路径)。有可能没有;

%(filename)s:调用日志输出函数的模块的文件名。带.py;

%(module)s:调用日志输出函数的模块名。不带.py;

%(funcName)s:调用日志输出函数的函数名。没有函数的话,显示的是<module>;

%(lineno)d:调用日志输出函数的语句所在的代码行;

%(created)f:当前时间,用UNIX标准的表示时间的浮点数表示。

%(relativeCreated)d:输出日志信息时的,自Logger创建以来的毫秒数。

%(asctime)s:字符串形式的当前时间。默认格式是"2003-07-08 16:49:45,896"(逗号后面的是毫秒);

%(thread)d:线程ID。有可能没有;

%(threadName)s:线程名。有可能没有;

%(process)d:进程ID。有可能没有;

%(message)s:用户输出的消息;

datefmt:使用指定的日期/时间格式。当与format中的%(asctime)s共存时,以datefmt指定的日期/时间格式为准;常用日期/时间format代码如下:

%Y:年,以十进制数作为十进制的年。例如:2016、2017;

%y:年,例如16、17;

%m:月,十进制数[01,12];

%d:日,十进制数的日期[01,31];

%H:小时(24小时制),为十进制数[00,23];

%M:分钟,为十进制数[00,59];

%S:秒数,为十进制数[00,61];

%z:时区偏离UTC;

%a:地区的缩写工作日的名字;

%A:地区的完整工作日的名字;

%b:区域设置的缩写月份名称;

%B:区域设置的全月份名称;

%c:区域设置适当的日期和时间表示;

%I:小时(12小时制),为十进制数[01,12];

%p:地区相当于AM或PM;

3.实现日志即在屏幕上打印,又保存到文件中

import logging  # 导入logging模块
 
Logger对象名 = logging.getLogger("自定义的名字")  # 创建一个logger对象名
Logger对象名.setLevel(logging.日志级别)  # 定义全局最低的日志级别
 
屏幕handler对象名 = logging.StreamHandler()  # 创建屏幕的handler
屏幕handler对象名.setLevel(logging.日志级别)  # 定义输出到屏幕上最低的日志级别
 
# 创建文件的handler,指定保存日志的文件,指定打开文件的字符编码;
文件handler对象名 = logging.FileHandler("文件名", encoding="字符编码")
文件handler对象名.setLevel(logging.日志级别)  # 定义保存到文件中最低的日志级别

# 定义输出到屏幕的handler上的日志格式
屏幕日志格式对象名 = logging.Formatter(fmt="格式代码", datefmt="指定的日期/时间格式")
# 将定义输出到屏幕上的格式与屏幕的handler关联起来
屏幕handler对象名.setFormatter(屏幕日志格式对象名)

# 定义输出到文件的handler中的日志格式
文件日志格式对象名 = logging.Formatter(fmt="格式代码", datefmt="指定的日期/时间格式")
# 将定义输出到文件中的格式与文件的handler关联起来
文件handler对象名.setFormatter(文件日志格式对象名)
 
Logger对象名.addHandler(屏幕handler对象名)  # 将屏幕的handler增加到logger中
Logger对象名.addHandler(文件handler对象名)  # 将文件的handler增加到logger中
 
# 输出日志内容
Logger对象名.debug("日志内容")
Logger对象名.info("日志内容")
Logger对象名.warning("日志内容")
Logger对象名.error("日志内容")
Logger对象名.critical("日志内容")

4.将日志文件按大小截断

import logging
from logging import handlers  # 一定要单独导入handlers

# 创建一个logger对象,自定义的名字为test log
logger = logging.getLogger("test log")
# 定义全局最低的日志级别
logger.setLevel(logging.DEBUG)

# 创建文件的handler,指定日志保存在access.log文件中,设定日志文件最大为10字节,最多备份3个文件,以utf-8字符编码打开文件
file_handler = handlers.RotatingFileHandler(filename="access.log",
                                            encoding="utf-8",
                                            maxBytes=10,
                                            backupCount=3)
# 定义保存到文件中最低的日志级别
file_handler.setLevel(logging.WARNING)

# 定义输出到文件的handler中的日志格式
file_handler_formatter = logging.Formatter(fmt="%(asctime)s - %(lineno)d : %(message)s",
                                           datefmt="%Y-%m-%d_%H:%M:%S")
# 将定义输出到文件中的格式与文件的handler关联起来
file_handler.setFormatter(file_handler_formatter)

# 将文件的handler增加到logger中
logger.addHandler(file_handler)

# 输出日志内容
logger.warning("test warning 01")
logger.warning("test warning 02")
logger.warning("test warning 03")
logger.warning("test warning 04")
logger.warning("test warning 05")

5.将日志文件按时间截断

import logging
import time
from logging import handlers  # 一定要单独导入handlers

# 创建一个logger对象,自定义的名字为test log
logger = logging.getLogger("test log")
# 定义全局最低的日志级别
logger.setLevel(logging.DEBUG)

# 创建文件的handler,指定日志保存在access.log文件中,设定日志每间隔2秒截断一次,最多备份3个文件,以utf-8字符编码打开文件
file_handler = handlers.TimedRotatingFileHandler(filename="access.log",
                                                 encoding="utf-8",
                                                 when="S",
                                                 interval=2,
                                                 backupCount=3)
# 定义保存到文件中最低的日志级别
file_handler.setLevel(logging.WARNING)

# 定义输出到文件的handler中的日志格式
file_handler_formatter = logging.Formatter(fmt="%(asctime)s - %(lineno)d : %(message)s",
                                           datefmt="%Y-%m-%d_%H:%M:%S")
# 将定义输出到文件中的格式与文件的handler关联起来
file_handler.setFormatter(file_handler_formatter)

# 将文件的handler增加到logger中
logger.addHandler(file_handler)

# 输出日志内容
logger.warning("test warning 01")
time.sleep(2)  # 因为设置的是2秒截断一次
logger.warning("test warning 02")
time.sleep(2)
logger.warning("test warning 03")
time.sleep(2)
logger.warning("test warning 04")
time.sleep(2)
logger.warning("test warning 05")

十、re模块

1.re模块简介

re模块用于对python的正则表达式的操作。

正则表示法就是处理字串的方法,他是以行为单位来进行字串的处理行为,正则表示法透过一些特殊符号的辅助,可以让使用者轻易的达到搜寻、删除、取代某特定字串的处理程序。

2.re模块的正则表达式符号

①匹配的字符

.:默认匹配除换行符以外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行;
  \w:匹配的是[A-Za-z0-9]范围内的任意一个字符,即字母或数字或下划线或汉字;

\W:匹配的是非[A-Za-z0-9]范围内的任意一个字符,即非字母、非数字、非下划线、非汉字;

\s:匹配空白字符、\t、\n、\r,例如re.search("\s+","ab\tc1\n3").group(),结果为‘\t‘;

\d:匹配0到9之间任意一个数字;

\D:匹配非数字的字符;
  \b:匹配单词的开始或结束;

|:匹配|号左的字符或者|号右的字符,re.search("abc|ABC", "ABCBabcCD").group(),结果为[‘ABC‘];

[开始值-结束值...]:匹配指定范围内的任意一个字符。例如[a-zA-Z]是匹配大小写字母中的任意一个字母;

[^字符]:中括号[^]中的^是非的意思,代表匹配除指定字符以外的字符;

②匹配的次数

*:匹配*号前一个字符0次或多次。注意*号可以匹配0次,不匹配的话,返回的不是None,而是‘‘。例如re.findall("ab*", "cabb3abcbbac"),结果为[‘abb‘, ‘ab‘, ‘a‘];
  +:匹配+号前一个字符1次或多次,例如re.findall("ab+", "ab+cd+abb+bba"),结果为[‘ab‘, ‘abb‘];
  ?:匹配?号前一个字符1次或0次。注意?号可以匹配0次,不匹配的话,返回的不是None,而是‘‘;
  {n}:匹配前一个字符n次;
  {n,}:匹配前一个字符n次或多次;
  {n, m}:匹配前一个字符n到m次,最少匹配n次,最多匹配m次。注意,如果能匹配上的字符少于n个,那就没有匹配上,返回None。例如re.findall("ab{1,3}", "abb abc abbcbbb"),结果为[‘abb‘, ‘ab‘, ‘abb‘];

③匹配的方向

^:匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a", "\nabc\neee", flags=re.MULTILINE);

\A:只从字符开头匹配,例如re.search("\Aabc", "alexabc") 是匹配不到的;

$:匹配结尾的字符,或re.search("foo$", "bfoo\nsdfsf", flags=re.MULTILINE).group()也可以;

\Z:匹配字符结尾,同$符号;

④分组匹配

(...):分组匹配,例如re.search("(abc){2}a(123|456)c", "abcabca456c").group(),结果为[‘abcabca456c‘];

(?P<name>...):分组匹配 ,例如

print(re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})", "371481199306143242").groupdict()),结果为{‘province‘: ‘3714‘, ‘city‘: ‘81‘, ‘birthday‘: ‘1993‘}

3.re模块的匹配语法

re.match(pattern, string, flags=0):从起始位置开始根据模型去字符串中匹配指定内容,匹配单个。

re.search(pattern, string, flags=0):会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None。只匹配单个,是常用的匹配语法;

re.findall(pattern, string, flags=0):不止匹配单个,会匹配到字符串中所有符合条件的字符,把所有匹配到的字符放到列表中的元素,并返回;

re.sub(pattern, repl, string, count=0, flags=0):将匹配到的字符替换成指定的字符。相比于str.replace功能更加强大;repl是替换后的值。count是替换的次数,不写就代表全部替换。

re.split(pattern, string, maxsplit=0, flags=0):将匹配到的字符当做分隔符,分隔符与分隔符之间的字符当作列表元素,然后返回列表。相比于str.split更加强大;maxsplit是分割多少次,不写就代表将匹配到的全部分割。

re.splitall(pattern, string, flags=0):以匹配到的字符当做列表分隔符;

各字段详解:

如果匹配成功,则返回所匹配的字符。

如果没有匹配成功,不用group()取结果,直接通过print()打印,显示的是None。而用group()取结果会报错;

pattern是正则表达式;string是要匹配的字符串;

flags是标志位,用于控制正则表达式的匹配方式。

flags=re.I(注意,是大写的i。完成写法flags=re.IGNORECASE):忽略大小写;

flags=re.M(完整写法flags=re.MULTILINE):多行匹配模式,改变^和$的限制。从多行内容中匹配模式;

flags=re.S(完整写法flags=re.DOTALL):点匹配任意字符,包括换行;

group()和group(0):取整个正则表达式匹配的字符串,返回的结果是一个字符串;

group(1):第一个括号部分的正则表达式匹配的结果,返回的结果是一个字符串;

groups():从group(1)开始往后的所有值,组成一个元组;

groupdict():从group(1)开始往后的所有值,组成一个字典。和分组匹配搭配使用,在(?P<key>正则表达式)中<>号中的内容是返回字典中的key,正则表达式匹配出的结果是返回字典中key所对应的value。;

时间: 2024-08-24 07:24:40

Python基础-第五天-常用模块的相关文章

Python基础(20)——常用模块sys,os,json,pickle,shelve,xml,re,basedir

纠正上节课的一些错误 __name__  在入口函数中 等于'__main__'   ,在被import导入的情况下等于路径下的自己文件的名字 import os 路径是在lib下面    而sys,time模块不在lib下面,因为他们是C语言实现的内置在解释器里面的,优先级最高 sys.path.append()这个修改路径是临时的修改 ,如果永久修改需要到系统里去设置 环境变量里的系统变量 原文地址:https://www.cnblogs.com/dayouge/p/11158930.htm

Python基础篇(五)

bool用于判断布尔值的结果是True还是False >>> bool("a") True >>> bool(3) True >>> bool("") False >>> bool(0) False Python中的elif类似于Java中的elseif >>> number = (int)(input("input a number: ")) input

学习Python必须要知道的常用模块

在程序设计中,为完成某一功能所需的一段程序或子程序:或指能由编译程序.装配程序等处理的独立程序单位:或指大型软件系统的一部分.本文为你介绍了Python中的两种常用模块. os: 这个模块包含普遍的操作系统功能.利用这个模块可以写出与平台无关的程序,比如就是使用os.sep可以取代操作系统特定的路径分割符. 列举一些os模块中常用的方法: os.name:获取当前系统平台,Windows下返回'nt',Linux下返回'posix'. os.linesep:获取当前平台使用的行终止符.Windo

Python基础学习五

Python基础学习五 迭代 for x in 变量: 其中变量可以是字符串.列表.字典.集合. 当迭代字典时,通过字典的内置函数value()可以迭代出值:通过字典的内置函数items()可以迭代出键值对. for key in dict: #迭代键 for val in dict.value(): #迭代值 for k,v in dict.items(): #迭代键值对 当迭代列表时,通过内置函数enumerate()可以迭代出索引加值. for i in list #迭代列表 for i

Python基础(十)re模块

Python基础阶段快到一段落,下面会陆续来介绍python面向对象的编程,今天主要是补充几个知识点,下面开始今天的内容. 一.反射 反射的作用就是列出对象的所有属性和方法,反射就是告诉我们,这个对象到底是什么,提供了什么功能, 可以伪造Web框架的路由系统. 举个例子: 1 2 >>> dir(json) ['JSONDecodeError', 'JSONDecoder', 'JSONEncoder', '__all__', '__author__', '__builtins__',

Python开发安装的一些常用模块

一.BeautifulSoup模块 关于BeautifulSoup模块主要用于规范化网页源代码,利用其一些特定的解析标签函数来分析网页,的得到一些特定的内容,用起来方便简单容易入门,但仍然有一些弊端,比如说对于网页中含有js代码的就不能有效读取与分析,所以常结合正则表达式来进行使用,效率特别好 二.Scrapy + Selenium 模块 这两个模块结合起来使用常用于解析javascript,安装与配置比较麻烦,具体安装过程及需要额外安装哪些文件自行百度 三.MySQLdb模块 此模块用于连接M

Python学习之路13?常用模块

一 time模块 在Python中,通常有这几种方式来表示时间: 时间戳(timestamp):通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量.我们运行"type(time.time())",返回的是float类型. 格式化的时间字符串(Format String) 结构化的时间(struct_time):struct_time元组共有9个元素共九个元素:(年,月,日,时,分,秒,一年中第几周,一年中第几天,夏令时) 1 import time 2 #

Python基础知识(五)------字典

Python基础知识(四)------字典 字典 一丶什么是字典 ? dict关键字 , 以 {} 表示, 以key:value形式保存数据 ,每个逗号分隔 ? 键: 必须是可哈希,(不可变的数据类型),必须是唯一的 ? 值: 任意数据类型 特点: ? 查询的效率非常高,通过key来查找元素 ? 内部使用key来计算一个内存地址(暂时), hash算法,key必须是不可变的数据类型(key 必须是可哈希的数据类型),key必须是不可变的数据类型 ? 字典是无序的, python3.6版本以上,默

Python 基础 - Day 4 Learning Note - 模块 - Json &amp; Pickle

Json和Pickle的区别 在python的序列化的两个模块中,json模块是用于字符串和python数据类型间进行转换:另一个pickle模块,是用于python特有的类型(所有数据类型和python的数据类型间进行转换.json是可以在不同语言之间交换数据的,而pickle只在python之间使用.json只能序列化最基本的数据类型,json只能把常用的数据类型序列化(列表.字典.列表.字符串.数字.),比如日期格式.类对象!josn就不行了.而pickle可以序列化所有的数据类型,包括类