一、数据库模式
在数据模型中有型(Type)和值(Value)的概念。型就是某一类数据结构和属性的说明,值就是具体的赋值。
模式:模式(Schema)是数据库中全体数据的逻辑结构和特征描述,是数据库的型。
实例:模式的一个具体值称为模式的一个实例(Instance),同一个模式可以有多个实例。
模式与实例的关系:
模式是相对稳定的,而实例是不断变化的;模式反映的是数据的结构及其联系,而实例反映的是数据库某一刻的状态。
三级模式结构
- 数据库系统由外模式、模式、内模式三级构成。
- 数据库系统的三级模式是对数据的三个抽象级别,三级模式把数据的具体组织交给DBMS管理,使用户不必关心数据在计算机当中如何表示,如何存储,用户可专注于数据的逻辑抽象。
1. 外模式
外模式(亦称子模式或者用户模式),是数据库用户能够看到和使用的局部数据的逻辑结构和特征的描述。外模式保证了数据库的安全性,每个用户只能看到和访问对应外模式中的数据,数据库的其他数据对该用户均不可见。
一般地,
- 外模式是模式的的子集,一个数据库可以有多个外模式。
- 对模式中的同一数据,在外模式中也可以不同。
- 一个外模式可以被多个应用程序所使用,一个应用程序只能使用一个外模式。
DBMS提供子模式描述语言(子模式DDL)来严格定义子模式。
2. 模式
模式(亦称逻辑模式)是数据库全体数据的逻辑结构和特征描述,是所用用户的公共数据视图。是数据库系统结构的中间层,既不涉及数据的物理存储细节,也不涉及具体的应用程序、开发工具和语言。
模式是数据库在逻辑级的视图,一个数据库只有一个模式,定义模式时要考虑数据的逻辑结构和数据间的联系,定义数据的安全性和完整性。
DBMS提供模式描述语言(模式DDL)来严格定义模式。
3. 内模式
一个数据库只有一个内模式(亦称存储模式),内模式是数据物理结构和存储方式的描述,是数据库中数据的内部表示方式。
DBMS提供内模式描述语言(内模式DDL)来严格定义内模式。
两级映象
为了能够在系统内部实现数据在3个抽象层次的联系和转换DBMS在三级模式之间提供两级映像功能:
- 外模式/模式映像
- 模式/内模式映像
其中外模式/模式映像保证了数据和程序之间的逻辑独立性;模式/内模式映像保证了数据和程序之间的物理独立性。
1. 外模式/模式映像
模式描述数据的全局逻辑结构,外模式描述数据的局部逻辑结构。同一个模式可以有多个外模式,每一个外模式在数据库系统中都有一个对应外模式/模式映像,它定义了外外模式与模式之间的对应关系。映像的定义通常包含在各自外模式的描述中。
当模式改变时,DBA可以对各个外模式/模式映像做相应的改变,从而使外模式保持不变,应用程序是依赖于外模式编写的,所以应用程序可以不修改。所以说外模式/模式映像保证了数据和程序之间的逻辑独立性。
2. 模式/内模式映像
数据库模式和内模式都只有一个,因此模式/内模式映像也是唯一的,模式/内模式映像定义了数据全局逻辑结构与存储结构的对应关系。当数据库的存储方式发生变化时,由DBA对模式/内模式映像做相应的改变,可使模式保持不变,进而使外模式也保持不变,最后可达到应用程序不变的目的。所以说模式/内模式映像保证了数据和程序之间的物理独立性
三级模式在RDBMS中的体现
- 外模式对应于视图(View)和一部分基本表(Base Table),也就是视图层;
- 模式对应于基本表(Base Table),也就是逻辑层;
- 内模式对应于存储文件(Stored File),物理层;
总结
在数据库的三级模式中,模式是全局的逻辑结构,它作为中间层独立于其它两层,在设计数据库模式结构时要首先确定数据库的逻辑结构。
数据库的内模式依赖于它的模式(全局逻辑结构),独立于外模式,也独立于具体的存储设备。它将模式定义的数据结构和联系按照一定的存储策略进行组织,从而达到较好的时间和空间效率。
数据库的外模式面向具体的应用程序,它定义在模式之上,因此可以独立于存储模式和存储设备。
数据库的二级映像保证了数据库外模式的稳定性,进而保证了依赖于特定外模式的应用程序的稳定性。一般情况下,只要应用程序的需求不变,应用程序就可以不用修改。
二、mysql数据库系统结构
一、MySQL逻辑模块组成
Mysql可以看成是二层架构,第一层叫SQL Layer,这一部分主要功能是完成mysql数据库系统处理底层数据之前的所有的准备工作,包括权限判断、sql解析、执行计划优化、query cache的处理等; 第二层是存储引擎层(Storage Engine Layer),这一层才是数据库系统数据存取操作的实现,是由多种存储引擎共同完成。
看起来结构简单,但是每一层又包含很多的小模块。
SQL Layer层包含的模块有:
1. 初始化模块
初始化模块就是在mysql server启动的时候,对整个系统做各种各样的初始化操作,比如各种buffer,cache结构的初始化和内存空间的申请,各种系统变量的初始化设定,各种存储引擎的初始化设置等
2. 核心API
核心API模块主要是为了提供一些需要非常高效的底层操作功能的优化实现,包括各种底层数据结构的实现,特殊算法的实现,字符窜处理,数字处理等,小文件I/O,格式化输出,以及最重要的内存管理部分。核心API模块的所有源代码都集中在mysys和strings文件夹下面。
3. 网络交互模块
底层网络交互模块抽象出底层网络交互所使用的接口api,实现底层网络数据的接收与发送,以方便其它各个模块的调用。以及对这一程序的部分维护。所有源码都在vio文件夹下面。
4. Client & Server 交互协议模块
任何的C/S结构的软件系统,都肯定会有自己独有的信息交互协议,MySQL也不例外,MySQL的Client & Server交互协议模块部分,实现了客户端与MySQL交互过程中的所有协议。当然这些协议都是建立在现有的OS和网络协议之上的。如TCP/IP、Unix Socket.
5. 用户模块
用户模块所实现的功能,主要是包括用户的登录连接权限控制和用户的授权管理。就像是MySQL的大门守卫一样,决定是否给来访者“开门”
6. 访问控制模块
造访客人进门了就可以想干嘛就干嘛么? 为了安全考虑,肯定是不能如此随意。这时候就需要访问控制模块实时监控客人的每一个动作,给不同的客人以不同的权限。访问控制模块实现的功能就是根据用户模块中各用户的授权信息,以及数据库自身特有的各种约束,来控制用户对数据的访问。用户模块和访问控制模块两者结合起来,组成了MySQL整个数据库系统的权限安全管理的功能。
7. 连接管理、连接线程、线程管理模块
连接管理模块负责监听对MySQL Server的各种请求,接受连接请求,转发所有连接请求到线程管理模块,每一个连接上MySQL Server的客户端请求都会被分配(或创建)一个连接线程为其单独服务。而连接线程的主要工作就是负责MySQL Server 与客户端的通信,接受客户端的命令请求。传递Server端的结果信息。线程管理模块则负责管理维护这些连接线程。还包括线程的创建,线程的cache等
8. Query解析和转发模块
在MySQL中我们习惯将所有Client端发送给Server端的命令都称为query,在MySQL Server里面,连接线程接受到客户端的一个query后,会直接将该query传递给专门负责将各种Query进行分类然后转发给相应的处理模块,这个模块就是Query解析和转发模块。主要工作就是将query语句进行语义和语法分析,然后按照不同的操作类型进行分类,然后做出针对性的转发。
9. Query Cache模块
Query Cache模块在MySQL中是一个非常重要的模块,他的主要功能是将客户端提交给MySQL的select类的query请求的返回结果集cache到内存中,与该query的一个hash值做一个对应。该Query所取数据的基表发生任何数据的变化之后,MySQL会自动使该query的Cache失效。在读写比例非常高的应用系统中,Query cache对性能的提高是非常显著的。当然他对内存的消耗也是巨大的。
10. Query优化器模块
Query优化器,就是优化客户端请求的query,根据客户端请求的query语句,和数据库中的一些统计信息,在一系列算法的基础上进行分析,得出一个最优的策略,告诉后面的程序如何取得这个query语句的结果。
11. 表变更管理模块
表变更管理模块主要负责完成一些DML和DDL的query,如:update、delete、insert、create table,alter table等语句的处理。
12. 表维护模块
表的状态检查,错误修复,以及优化和分析等工作都是表维护模块所需要做的事情。
13. 系统状态管理模块
系统状态管理模块负责在客户端请求系统状态的时候,将各种状态数据返回给用户,比如DBA常用的show status命令,show variables命令等,所得到的的结果都是由这个模块来返回的。
14. 表管理器
这个模块从名字上看来和上面的表变更和表维护模块相混淆,但是其功能与表变更及维护模块却完全不同。大家都知道,每一个MySQL的表都有一个表的定义文件,依旧是*.frm文件。表管理器的工作主要就是维护这些文件,以及一个cache,该cache中的主要内容是各个表的结构信息。此外他还维护table级别的锁管理。
15. 日志记录模块
主要负责整个系统级别的逻辑层的日志的记录,包括error log, binary log, show query log等。
16. 复制模块
复制模块又可分为Master模块和Slave模块两部分,Master模块主要负责在Replication环境中读取Master端binary日志,以及与Slave端的I/O线程交互等工作。Slave模块比Master模块所要做的事情稍多一些。在系统中主要体现在两个线程上面。一个是负责从Master请求和接受binary日志,并写入本地relay log中的I/O线程。另一个负责从relay log中读取相关日志文件,然后解析成可以在Slave端正确执行并得到和Master端完全相同的结果的米宁再交给Slave执行的SQL线程。
17. 存储引擎接口模块
存储引擎接口模块是MySQL数据库最有特色的一点了。目前各种数据库产品中,基本上只有MySQL可以实现其底层数据存储引擎的插件式管理。这个模块实际上只是一个抽象类,但是正因为它成功的将各种数据库处理高度抽象化,才成就了今天的MySQL可插拔存储引擎的特色。
·可以看到仅第一层就拥有这么多的模块,可见一个简单易用的数据库,其底层实现也超复杂的。
二、 各模块的工作配合
重点来了。 我们通过一个例子来阐述mysql系统的各个模苦是如何相亲相爱的完成一个我们认为的很简单的查询工作的。
我们对启动mysql,客户端建立连接,请求query,得到返回结果,最终退出。这样一整个过程来进行分析。
第一步:当我们执行启动mysql系统的命令之后,mysql的初始化模块就从系统配置文件中读取系统参数和命令行参数,并按照参数来初始化整个系统,如申请并分配buffer,初始化全局变量,以及各种结构等。同时各个存储引擎也被启动,进行各自的初始化工作。当整个系统初始化结束后,由连接管理模块接手,连接管理模块会启动处理客户端连接请求的监听程序,包括tcp/ip的网络监听,还有unix的socket,这时候,mysql serve就基本启动完成,准备好接受客户端的请求了。
第二步:当连接管理模块监听到客户端的连接请求(借助网络交互模块的相关功能),双方通过Client & Server交互协议模块所定义的协议“寒暄”几句之后,连接管理模块就会将连接请求转发给线程管理模块,去请求一个连接线程。
第三步:线程管理模块接着将控制权交给连接线程模块,告诉连接线程模块,现在我这边连接请求过来了,需要建立连接,你赶快处理一下。连接线程模块会在接收到连接请求后,首先检查当前连接线程池中是否有被cache的空闲连接线程,如果有,就取出一个和客户端请求连接上,如果没有空闲的连接线程,则建立一个新的连接线程与客户端请求连接。当然,连接线程模块并不是在接收到连接请求后马上就会取出一个连接线程和客户端连接,而是首先通过调用用户模块进行授权检查,只有客户端请求通过了授权检查后,他才会将客户端请求和负责请求的连接线程连上。
在MySQL中,将客户端的请求分为了两种类型,一种是query,需要调用Parser也就是Query解析和转发模块的解析才能够执行的请求;一种是command,不需要调用Parser就可以执行执行的请求。如果我们的初始化配置打开了Full Query Logging的功能,那么Query解析与转发模块就会调用日志记录模块将请求计入日志。不管是一个Query类型的请求还是一个command类型的请求,都会被记录进入日志,所以出于性能考虑一般很少打开Full Query Logging的功能。
第四步:当客户端请求和连接线程“互换暗号(互通协议)”接上头之后,连接线程就开始处理客户端请求发送过来的各种命令(或者query),接受相关请求。他将收到的query语句转发给Query解析和转发模块,Query解析器先对Query进行基本的语义和语法解析,然后根据命令类型的不同,有些会直接处理,有些会分发给其他模块来处理。
如果是一个Query类型的请求,会将控制权交给Query解析器,Query解析器首先分析是不是一个select类型的query,如果是,则调用查询缓存模块,让它检查该query在query cache中是否已经存在。如果有,则直接将cache中的数据返回给连接线程模块。然后通过与客户端连接的线程将数据输出给客户端。如果不是一个可以被cache的query类型,或者cache中没有改query的数据,那么query将被继续传回Query解析器,让Query解析器进行相应处理,在通过Query分发器分发给相关处理模块。
第五步:如果解析器解析结果是一条未被cache的select语句,则将控制权交给Optimizer,也就是Query优化器模块,如果是DML或者是DDL语句,则会交给表变更管理模块,如果是一些更新统计信息、检测、修复和整理类的query则会交给表维护模块去处理,复制相关的query则转交给复制模块去进行相应的处理,请求状态的query则交给状态收集报告模块。实际上表变更管理模块根据所对应的处理请求的不同,是分别由insert处理器、delete处理器、update处理器、create处理器,以及alter处理器这些小模块来负责不同的DML和DDL的。
第六步:在各个模块收到Query解析与分发模块发过来的请求后,首先会通过访问控制模块检查连接用户是否有访问控制目标表以及目标字段的权限,如果有,就会调用表管理模块请求相应的表,并获取对应的锁。表管理模块首先会看到该表是否已经存在于table cache中,如果已经打开则直接进行锁相关的处理,如果没有在cache中,则需要在打开表文件获取锁,然后将打开的表交给表变更管理模块。
第七步:当表变更管理模块“获取”打开的表之后,就会根据该表的相关meta信息,判断表的存储引擎类型和其它相关信息。根据表的存储引擎类型,提交请求给存储引擎接口模块,调用对应的存储引擎实现模块,进行相应处理。
不过,对于表变更管理模块来说,可见的仅是存储引擎接口模块提供的一系列“标准”接口,底层存储引擎实现模块的具体实现,对于表变更管理模块来说是透明的。他只需要调用对应的接口,并指定表类型,接口模块会根据表类型调用正确存储引擎来进行相应的处理。
第八步:当一条query或者是一个command处理完成(成功或者失败)之后,控制权都会交还给连接线程模块。如果处理成功,则将处理结果(可能是一个Result set,也可能是成功或者失败的标识)通过连接线程反馈给客户端。如果处理过程中发生错误,也会将相应的错误信息发送给客户端,然后连接线程模块会进行相应的清理工作,并继续等待后面的请求,重复上面提到的过程,或者完成客户端断开连接的请求。
第九步:如果在上面的过程中,相关模块使数据库中的数据发生了变化,而且MySQL打来了bin-log功能,则对应的处理模块还会调用日志处理模块将相应的变更语句以更新事件的形式记录到相关参数指定的二进制日志文件中。
在上面各个模块的内容处理过程中,各自的核心运算处理功能部分都会高度依赖整个MySQL API模块,比如内存管理,文件I/O,数字和字符串处理等。
以上整个过程如下图:
原文地址:https://www.cnblogs.com/brucetang/p/9822496.html