MySQL系统架构

来源:互联网 发布:真钱网络视频棋牌游戏 编辑:程序博客网 时间:2024/06/05 18:48

一.逻辑模块组成

总的来说,MySQL 可以看成是二层架构,第一层我们通常叫做SQL Layer,在MySQL 数据库系统处理底层数据之前的所有工作都是在这一层完成的,包括权限判断,sql 解析,执行计划优化,querycache 的处理等等;第二层就是存储引擎层,我们通常叫做Storage Engine Layer,也就是底层数据存取操作实现部分,由多种存储引擎共同组成。所以,可以用如下一张最简单的架构示意图来表示MySQL 的基本架构,如图2-1 所示:


虽然从上图看起来MySQL 架构非常的简单,就是简单的两部分而已,但实际上每一层中都含有各自的很多小模块,尤其是第一层SQL Layer,结构相当复杂的。下面我们就分别针对SQL Layer 和Storage Engine Layer 做一个简单的分析。

 

SQL Layer 中包含了多个子模块,下面我将逐个做一下简单的介绍:

 

1、初始化模块

顾名思议,初始化模块就是在MySQL Server 启动的时候,对整个系统做各种各样的初始化操作,比如各种buffer,cache 结构的初始化和内存空间的申请,各种系统变量的初始化设定,各种存储引擎的初始化设置,等等。

 

2、核心API

核心API 模块主要是为了提供一些需要非常高效的底层操作功能的优化实现,包括各种底层数据结构的实现,特殊算法的实现,字符串处理,数字处理等,小文件I/O,格式化输出,以及最重要的内存管理部分。核心API 模块的所有源代码都集中在mysys和strings文件夹下面,有兴趣的读者可以研究研究。

 

3、网络交互模块

底层网络交互模块抽象出底层网络交互所使用的接口api,实现底层网络数据的接收与发送,以方便其他各个模块调用,以及对这一部分的维护。所有源码都在vio 文件夹下面。

 

4、Client& Server 交互协议模块

任何C/S 结构的软件系统,都肯定会有自己独有的信息交互协议,MySQL 也不例外。MySQL的Client & Server 交互协议模块部分,实现了客户端与MySQL 交互过程中的所有协议。当然这些协议都是建立在现有的OS 和网络协议之上的,如TCP/IP 以及Unix Socket。

 

5、用户模块

用户模块所实现的功能,主要包括用户的登录连接权限控制和用户的授权管理。他就像MySQL 的大门守卫一样,决定是否给来访者“开门”。

 

6、访问控制模块

造访客人进门了就可以想干嘛就干嘛么?为了安全考虑,肯定不能如此随意。这时候就需要访问控制模块实时监控客人的每一个动作,给不同的客人以不同的权限。访问控制模块实现的功能就是根据用户模块中各用户的授权信息,以及数据库自身特有的各种约束,来控制用户对数据的访问。用户模块和访问控制模块两者结合起来,组成了MySQL 整个数据库系统的权限安全管理的功能。

 

7、连接管理、连接线程和线程管理

连接管理模块负责监听对MySQL Server 的各种请求,接收连接请求,转发所有连接请求到线程管理模块。每一个连接上MySQL Server 的客户端请求都会被分配(或创建)一个连接线程为其单独服务。而连接线程的主要工作就是负责MySQL Server 与客户端的通信,接受客户端的命令请求,传递Server 端的结果信息等。线程管理模块则负责管理维护这些连接线程。包括线程的创建,线程的cache 等。

 

8、Query 解析和转发模块

在MySQL 中我们习惯将所有Client端发送给Server 端的命令都称为query,在MySQL Server 里面,连接线程接收到客户端的一个Query 后,会直接将该query 传递给专门负责将各种Query 进行分类然后转发给各个对应的处理模块,这个模块就是query 解析和转发模块。其主要工作就是将query 语句进行语义和语法的分析,然后按照不同的操作类型进行分类,然后做出针对性的转发。

 

9、QueryCache 模块

Query Cache 模块在MySQL 中是一个非常重要的模块,他的主要功能是将客户端提交给MySQL 的Select 类query 请求的返回结果集cache 到内存中,与该query 的一个hash 值做一个对应。该Query 所取数据的基表发生任何数据的变化之后,MySQL 会自动使该query 的Cache 失效。在读写比例非常高的应用系统中,Query Cache 对性能的提高是非常显著的。当然它对内存的消耗也是非常大的。

 

10、Query 优化器模块

Query 优化器,顾名思义,就是优化客户端请求的query,根据客户端请求的query 语句,和数据库中的一些统计信息,在一系列算法的基础上进行分析,得出一个最优的策略,告诉后面的程序如何取得这个query 语句的结果。

 

11、表变更管理模块

表变更管理模块主要是负责完成一些DML 和DDL 的query,如:update,delte,insert,create table,alter table 等语句的处理。

 

12、表维护模块

表的状态检查,错误修复,以及优化和分析等工作都是表维护模块需要做的事情。

 

13、系统状态管理模块

系统状态管理模块负责在客户端请求系统状态的时候,将各种状态数据返回给用户,像DBA 常用的各种showstatus 命令,showvariables 命令等,所得到的结果都是由这个模块返回的。

 

14、表管理器

这个模块从名字上看来很容易和上面的表变更和表维护模块相混淆,但是其功能与变更及维护模块却完全不同。大家知道,每一个MySQL 的表都有一个表的定义文件,也就是*.frm文件。表管理器的工作主要就是维护这些文件,以及一个cache,该cache 中的主要内容是各个表的结构信息。此外它还维护table 级别的锁管理。

 

15、日志记录模块

日志记录模块主要负责整个系统级别的逻辑层的日志的记录,包括error log,binary log,slow query log 等。

 

16、复制模块

复制模块又可分为Master 模块和Slave 模块两部分, Master 模块主要负责在Replication 环境中读取Master 端的binary 日志,以及与Slave 端的I/O 线程交互等工作。

Slave 模块比Master 模块所要做的事情稍多一些,在系统中主要体现在两个线程上面。一个是负责从Master请求和接受binary 日志,并写入本地relay log 中的I/O 线程。另外一个是负责从relay log 中读取相关日志事件,然后解析成可以在Slave 端正确执行并得到和Master端完全相同的结果的命令并再交给Slave 执行的SQL 线程。

 

17、存储引擎接口模块

存储引擎接口模块可以说是MySQL 数据库中最有特色的一点了。目前各种数据库产品中,基本上只有MySQL 可以实现其底层数据存储引擎的插件式管理。这个模块实际上只是一个抽象类,但正是因为它成功地将各种数据处理高度抽象化,才成就了今天MySQL 可插拔存储引擎的特色。

 

 

二.各模块工作配合

在了解了MySQL 的各个模块之后,我们再看看MySQL各个模块间是如何相互协同工作的。

接下来,我们通过启动MySQL,客户端连接,请求query,得到返回结果,最后退出,这样一整个过程来进行分析。

当我们执行启动MySQL 命令之后,MySQL 的初始化模块就从系统配置文件中读取系统参数和命令行参数,并按照参数来初始化整个系统,如申请并分配buffer,初始化全局变量,以及各种结构等。同时各个存储引擎也被启动,并进行各自的初始化工作。当整个系统初始化结束后,由连接管理模块接手。连接管理模块会启动处理客户端连接请求的监听程序,包括tcp/ip 的网络监听,还有unix 的socket。这时候,MySQL Server 就基本启动完成,准备好接受客户端请求了。

当连接管理模块监听到客户端的连接请求(借助网络交互模块的相关功能),双方通过Client & Server 交互协议模块所定义的协议“寒暄”几句之后,连接管理模块就会将连接请求转发给线程管理模块,去请求一个连接线程。


线程管理模块马上又会将控制交给连接线程模块,告诉连接线程模块:现在我这边有连接请求过来了,需要建立连接,你赶快处理一下。连接线程模块在接到连接请求后,首先会检查当前连接线程池中是否有被cache 的空闲连接线程,如果有,就取出一个和客户端请求连接上,如果没有空闲的连接线程,则建立一个新的连接线程与客户端请求连接。当然,连接线程模块并不是在收到连接请求后马上就会取出一个连接线程连和客户端连接,而是首先通过调用用户模块进行授权检查,只有客户端请求通过了授权检查后,他才会将客户端请求和负责请求的连接线程连上。


在MySQL 中,将客户端请求分为了两种类型:一种是query,需要调用Parser 也就是Query 解析和转发模块的解析才能够执行的请求;一种是command,不需要调用Parser 就可以直接执行的请求。如果我们的初始化配置中打开了Full QueryLogging 的功能,那么Query 解析与转发模块会调用日志记录模块将请求计入日志,不管是一个Query 类型的请求还是一个command 类型的请求,都会被记录进入日志,所以出于性能考虑,一般很少打开Full QueryLogging 的功能。


当客户端请求和连接线程“互换暗号(互通协议)”接上头之后,连接线程就开始处理客户端请求发送过来的各种命令(或者query),接受相关请求。它将收到的query语句转给Query 解析和转发模块,Query 解析器先对Query 进行基本的语义和语法解析,然后根据命令类型的不同,有些会直接处理,有些会分发给其他模块来处理。


如果是一个Query 类型的请求,会将控制权交给Query解析器。Query 解析器首先分析看是不是一个select 类型的query,如果是,则调用查询缓存模块,让它检查该query 在query cache 中是否已经存在。如果有,则直接将cache 中的数据返回给连接线程模块,然后通过与客户端的连接的线程将数据传输给客户端。如果不是一个可以被cache 的query类型,或者cache 中没有该query 的数据,那么query 将被继续传回query 解析器,让query解析器进行相应处理,再通过query 分发器分发给相关处理模块。


如果解析器解析结果是一条未被cache 的select 语句,则将控制权交给Optimizer,也就是Query 优化器模块,如果是DML 或者是DDL 语句,则会交给表变更管理模块,如果是一些更新统计信息、检测、修复和整理类的query 则会交给表维护模块去处理,复制相关的query 则转交给复制模块去进行相应的处理,请求状态的query 则转交给了状态收集报告模块。实际上表变更管理模块根据所对应的处理请求的不同,是分别由insert 处理器、delete 处理器、update 处理器、create 处理器,以及alter 处理器这些小模块来负责不同的DML和DDL 的。

 

在各个模块收到Query 解析与分发模块分发过来的请求后,首先会通过访问控制模块检查连接用户是否有访问目标表以及目标字段的权限,如果有,就会调用表管理模块请求相应的表,并获取对应的锁。表管理模块首先会查看该表是否已经存在于table cache 中,如果已经打开则直接进行锁相关的处理,如果没有在cache 中,则需要再打开表文件获取锁,然后将打开的表交给表变更管理模块。

 

当表变更管理模块“获取”打开的表之后,就会根据该表的相关meta 信息,判断表的存储引擎类型和其他相关信息。根据表的存储引擎类型,提交请求给存储引擎接口模块,调用对应的存储引擎实现模块,进行相应处理。

不过,对于表变更管理模块来说,可见的仅是存储引擎接口模块所提供的一系列“标准”接口,底层存储引擎实现模块的具体实现,对于表变更管理模块来说是透明的。他只需要调用对应的接口,并指明表类型,接口模块会根据表类型调用正确的存储引擎来进行相应的处理。

当一条query 或者一个command 处理完成(成功或者失败)之后,控制权都会交还给连接线程模块。如果处理成功,则将处理结果(可能是一个Result set,也可能是成功或者失败的标识)通过连接线程反馈给客户端。如果处理过程中发生错误,也会将相应的错误信息发送给客户端,然后连接线程模块会进行相应的清理工作,并继续等待后面的请求,重复上面提到的过程,或者完成客户端断开连接的请求。

如果在上面的过程中,相关模块使数据库中的数据发生了变化,而且MySQL 打开了binlog 功能,则对应的处理模块还会调用日志处理模块将相应的变更语句以更新事件的形式记录到相关参数指定的二进制日志文件中。

在上面各个模块的处理过程中,各自的核心运算处理功能部分都会高度依赖整个MySQL的核心API 模块,比如内存管理,文件I/O,数字和字符串处理等等。

 

了解到整个处理过程之后,我们可以将以上各个模块画成如图2-2 的关系图:

 

 

下面这个是官方文档里的一个图:

 

 

 


1.MySQL基础

MySQL是一个开放源代码的关系数据库管理系统。原开发者为瑞典的MySQL AB公司,最早是在2001年MySQL3.23进入到管理员的视野并在之后获得广泛的应用。 2008年MySQL公司被Sun公司收购并发布了首个收购之后的版本MySQL5.1,该版本引入分区、基于行复制以及plugin API。移除了原有的BerkeyDB引擎,同时,Oracle收购InnoDB Oy发布了InnoDB plugin,这后来发展成为著名的InnoDB引擎。2010年Oracle收购Sun公司,这也使得MySQL归入Oracle门下,之后Oracle发布了收购以后的首个版本5.5,该版本主要改善集中在性能、扩展性、复制、分区以及对windows的支持。目前版本已发展到5.7。

和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥良好作用。主要体现在存储引擎的架构上,插件式的存储引擎架构将查询处理和其它的系统任务以及数据的存储提取相分离。这种架构可以根据业务的需求和实际需要选择合适的存储引擎。

2.MySQL逻辑架构

MySQL运行原理与基础架构

 

1.最上层是一些客户端和连接服务,包含本地sock通信和大多数基于客户端/服务端工具实现的类似于tcp/ip的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全接入的客户端提供线程。同样在该层上可以实现基于SSL的安全链接。服务器也会为安全接入的每个客户端验证它所具有的操作权限。

2.第二层架构主要完成大多少的核心服务功能,如SQL接口,并完成缓存的查询,SQL的分析和优化及部分内置函数的执行。所有跨存储引擎的功能也在这一层实现,如过程、函数等。在该层,服务器会解析查询并创建相应的内部解析树,并对其完成相应的优化如确定查询表的顺序,是否利用索引等,最后生成相应的执行操作。如果是select语句,服务器还会查询内部的缓存。如果缓存空间足够大,这样在解决大量读操作的环境中能够很好的提升系统的性能。

3.存储引擎层,存储引擎真正的负责了MySQL中数据的存储和提取,服务器通过API与存储引擎进行通信。不同的存储引擎具有的功能不同,这样我们可以根据自己的实际需要进行选取。

4.数据存储层,主要是将数据存储在运行于裸设备的文件系统之上,并完成与存储引擎的交互。

3.并发控制和锁的概念

当数据库中有多个操作需要修改同一数据时,不可避免的会产生数据的脏读。这时就需要数据库具有良好的并发控制能力,这一切在MySQL中都是由服务器和存储引擎来实现的。

解决并发问题最有效的方案是引入了锁的机制,锁在功能上分为共享锁(shared lock)和排它锁(exclusive lock)即通常说的读锁和写锁。当一个select语句在执行时可以施加读锁,这样就可以允许其它的select操作进行,因为在这个过程中数据信息是不会被改变的这样就能够提高数据库的运行效率。当需要对数据更新时,就需要施加写锁了,不在允许其它的操作进行,以免产生数据的脏读和幻读。锁同样有粒度大小,有表级锁(table lock)和行级锁(row lock),分别在数据操作的过程中完成行的锁定和表的锁定。这些根据不同的存储引擎所具有的特性也是不一样的。

MySQL大多数事务型的存储引擎都不是简单的行级锁,基于性能的考虑,他们一般都同时实现了多版本并发控制(MVCC)。这一方案也被Oracle等主流的关系数据库采用。它是通过保存数据中某个时间点的快照来实现的,这样就保证了每个事务看到的数据都是一致的。详细的实现原理可以参考《高性能MySQL》第三版。

4.事务

1.简单的说事务就是一组原子性的SQL语句。可以将这组语句理解成一个工作单元,要么全部执行要么都不执行。在MySQL中可以使用如下命令操作事务:

1
2
3
4
5
start transaction;
select ...
update ...
insert ...
commit;

注意:默认MySQL中自动提交是开启的:

MySQL运行原理与基础架构

2.事务具有ACID的特性:

原子性(atomicity):事务中的所有操作要么全部提交成功,要么全部失败回滚。

一致性(consistency):数据库总是从一个一致性状态转换到另一个一致性状态。

隔离性(isolation):一个事务所做的修改在提交之前对其它事务是不可见的。

持久性(durability):一旦事务提交,其所做的修改便会永久保存在数据库中。

3.事务的隔离级别:在SQL标准中定义了四种隔离级别:

READ UNCOMMITTED(读未提交):事务中的修改即使未提交也是对其它事务可见

READ COMMITTED(读提交):事务提交后所做的修改才会被另一个事务看见,可能产生一个事务中两次查询的结果不同。

REPEATABLE READ(可重读):只有当前事务提交才能看见另一个事务的修改结果。解决了一个事务中两次查询的结果不同的问题。

SERIALIZABLE(串行化):只有一个事务提交之后才会执行另一个事务。

4.MySQL中可以利用如下语句查询并临时修改隔离级别:

MySQL运行原理与基础架构

 

5.死锁:两个或多个事务在同一资源上相互占用并请求锁定对方占用的资源,从而导致恶性循环的现象。MySQL的部分存储引擎能够检测到死锁的循环依赖并产生相应的错误。InnoDB引擎解决死锁的方案是将持有最少排它锁的事务进行回滚。

5.MySQL存储引擎及应用方案

1.MySQL采用插件式的存储引擎架构,可以根据不同的需求为不同的表设置不同的存储引擎。可以通过如下命令显示数据库中表的状态信息,以user表为例,显示如下:

MySQL运行原理与基础架构

 

Name:显示的是表名

Engine:显示存储引擎,该表存储引擎为MyISAM

Row_format:显示行格式,对于MyISAM有Dynamic、Fixed和Compressed三种。非别表示表中有可变的数据类型,表中数据类型为固定的,以及表是压缩表的环境。

Rows:显示表中行数

Avg_row_length:平均行长度(字节)

Data_length:数据长度(字节)

Max_data_length:最大存储数据长度(字节)

Data_free:已分配但未使用的空间,包括删除数据空余出来的空间

Auto_increment:下一个插入行自动增长字段的值

Create_time:表的创建时间

Update_time:表数据的最后修改时间

Collation:表的默认字符集及排序规则

Checksum:如果启用,表示整个表的实时校验和

Create_options:创建表示的一些其它选项

Comment:额外的一些注释信息,根据存储引擎的不同表示的内容也不胫相同。

2.存储引擎介绍:

InnoDB引擎:

1.将数据存储在表空间中,表空间由一系列的数据文件组成,由InnoDB管理;

2.支持每个表的数据和索引存放在单独文件中(innodb_file_per_table);

3.支持事务,采用MVCC来控制并发,并实现标准的4个事务隔离级别,支持外键;

4.索引基于聚簇索引建立,对于主键查询有较高性能;

5.数据文件的平台无关性,支持数据在不同的架构平台移植;

6.能够通过一些工具支持真正的热备。如XtraBackup等;

7.内部进行自身优化如采取可预测性预读,能够自动在内存中创建hash索引等。

MyISAM引擎:

1.MySQL5.1中默认,不支持事务和行级锁;

2.提供大量特性如全文索引、空间函数、压缩、延迟更新等;

3.数据库故障后,安全恢复性差;

4.对于只读数据可以忍受故障恢复,MyISAM依然非常适用;

5.日志服务器的场景也比较适用,只需插入和数据读取操作;

6.不支持单表一个文件,会将所有的数据和索引内容分别存在两个文件中;

7.MyISAM对整张表加锁而不是对行,所以不适用写操作比较多的场景;

8.支持索引缓存不支持数据缓存。

Archive引擎:

1.只支持insert和select操作;

2.缓存所有的写数据并进行压缩存储,支持行级锁但不支持事务;

3.适合高速插入和数据压缩,减少IO操作,适用于日志记录和归档服务器。

Blackhole引擎:

1.没有实现任何存储机制,会将插入的数据进行丢弃,但会存储二进制日志;

2.会在一些特殊需要的复制架构的环境中使用。

CSV引擎:

1.可以打开CSV文件存储的数据,可以将存储的数据导出,并利用excel打开;

2.可以作为一种数据交换的机制,同样经常使用。

Memory引擎:

1.将数据在内存中缓存,不消耗IO;

2.存储数据速度较快但不会被保留,一般作为临时表的存储被使用。

Federated引擎:

能够访问远程服务器上的数据的存储引擎。能够建立一个连接连到远程服务器。

Mrg_MyISAM引擎:

将多个MYISAM表合并为一个。本身并不存储数据,数据存在MyISAM表中间。

NDB集群引擎:

MySQL Cluster专用。

原创粉丝点击