数据库持久化中的读写性能原理分析---基于存储引擎和索引原理

来源：互联网发布：gre issue 知乎编辑：程序博客网时间：2024/06/10 21:05

1.存储引擎的类型

类型功能应用hash增删改、随机读、顺序扫描Key-Value存储系统 redis、memcachedB-Tree增删改、随机读、顺序扫描关系型数据库，MongoDB采用了B-Tree+lock-free,LSM增删改、随机读、顺序扫描分布式存储系统，如cassandra

2.影响读写性能的因素 --- 缓存管理和查找效率

B-Tree

缓存管理

缓存管理的核心在于置换算法，置换算法常见的有FIFO（First In First Out），LRU(Least Recently Used)。关系型数据库在LRU的基础上，进行了改进，主要使用LIRS(Low Inter-reference Recency Set)
将缓存分为两级，第一次采用LRU，最近被使用到的数据会进第一级，如果数据在较短时间内被访问了两次或以上，则成为热点数据，进入第二级。避免了进行全表扫描的时候，可能会将缓存中的大量热点数据替换掉。

LSM

Log-Structured Merge Tree:结构化合并树，核心思想就是不将数据立即从内存中写入到磁盘，而是先保存在内存中，积累了一定量后再刷到磁盘中

LSM VS B-Tree

LSM在B-Tree的基础上为了获取更好的写性能而牺牲了部分的读性能，同时利用其它的实现来弥补读性能，比如boom-filter.

1.写

B树的写入，是首先找到对应的块位置，然后将新数据插入。随着写入越来越多，为了维护B树结构，节点得分裂。这样插入数据的随机写概率就会增大，性能会减弱。

LSM 则是在内存中形成小的排好序的树，然后flush到磁盘的时候不断的做merge.因为写入都是内存写，不写磁盘，所以写会很高效。

2.读

B树从根节点开始二分查询直到叶子节点，每次读取一个节点，如果对应的页面不在内存中，则读取磁盘，缓存数据。

LSM树整个结构不是有序的，所以不知道数据在什么地方，需要从每个小的有序结构中做二分查询，找到了就返回，找不到就继续找下一个有序结构。所以说LSM牺牲了读性能。但是LSM之所以能够作为大规模数据存储系统在于读性能可以通过其他方式来提高，比如读取性能更多的依赖于内存/缓存命中率而不是磁盘读取。

MySQL

MySQL的存储引擎主要有两种，一种是MyISAM,一种是InnoDB。5.7以后的默认存储引擎是InnoDB

MyISAM

提供了表级别的锁，锁粒度大，加锁快，但是表被锁住的概率就比较高，影响读写性能。一般用在只读或者读比较多的情况。不能提交事务。

InnoDB

提供ACID事务，行级别的锁。将数据以聚簇索引(clusted index)的方式进行存储，对于常见的基于主键的查询case可以有效的降低I/O操作。

所谓的聚簇索引的其实就是将数据直接存在index页，这样没必要先扫index，然后根据数据的物理地址去取数据。

索引

InnoDB

聚簇索引（B树）
聚簇索引要求表必须有主键，如果没有显式指定，系统会自动
找到第一个unique的索引作为主键，如果不存在这种列，则MySQL自动
为InnoDB表生成一个隐含字段作为主键
二级索引[secondary index]（B树）
就是非聚簇索引以外的，二级索引的每条记录里都包含对应行的主键，先根据二级索引找到主键，再根据主键找到对应行。因为二级索引都会存primary key，所以primary key不宜过长。

这点上和cassandra类似，不过cassandra不叫聚簇索引，叫主键索引，不同的是cassandra的二级索引不是基于B树的，而是新创建一张表，primary key为索引列，剩下的为原表的primary key。而且cassandra而且cassandra是hash,索引对范围查询支持不好
http://blog.csdn.net/fs1360472174/article/details/52733434

空间索引（R树）MySQL5.7.5以上
前缀索引

前缀索引是当要索引的文本类型的字段很长的时候，直接以整个字段来做为index的key代价太高，可以截取前几位来作为index key

ALTER TABLE test ADD INDEX 'prefix' (first_name,last_name(4))1
2

这种方式需要谨慎，要确保截取的位数能够区分出大部分数据，比如原来的
索引列基数是90%。前缀索引至少尽可能的接近这个数。

另外前缀索引也不能用于ORDER BY和GROUP BY。原因很好理解，因为根据索引查到的不是唯一行值，这是个坑，可能会导致有索引比没索引查询还要慢

Cassandra

Cassandra是一个写性能优于读性能的NoSql数据库，写性能好一个原因在于选择了LSM存储引擎。

Mongo

MMAPv1

Mongo 3.2以前默认使用MMAPv1存储引擎，是基于B-Tree类型的。

边界(padding)

MMAPv1 存储引擎使用一个叫做”记录分配”的过程来为document存储分配磁盘空间。MongoDB与Cassandra不同的是，需要去更新原有的document。如果原有的document空间不足，则需要将这个document移动到新的位置，更新对应的index。这样就会导致一些不必要的更新，和数据碎片。

为了避免出现上述情况，就有了边界的概念，就是为document预分配空间。但是这样就有可能造成资源的浪费。mongo 按照64M,128M,256M…2G的2的冥次方递增策略预分配，最大2G。在数据量小的情况下问题并不明显，但是当达到2G时，磁盘占用量大的问题就出来了。

同样这一点和关系型数据库也不一样，关系型数据库对于长记录数据会分开存储。

锁
MMAPv1使用collection级别的锁，即一个collecion增，删，改一次只能有一个。在并发操作时，就会造成等待。

WiredTiger

3.2及其以后的默认存储引擎,同样是基于B-Tree的。采用了lock-free,风险指针等并发技术，使得在多核机器上工作的更好。
锁级别为document。并且引入了compression，减少了磁盘占用。

索引的原理---以MySQL为例

索引则会通过最大程度的降低扫描纪录的条数来提高效率，不同类型的索引往往会采取不同的策略来降低扫描的记录数

索引的类型：

基于B-Tree index 和基于Hash index

B-Tree Index

B-Tree索引是一种使用相对广泛的索引类型，在很多数据库中 (ORACLE,MYSQL) 也将它作为默认的索引类型，这种索引采用B-Tree数据结构来存储数据。

B-tree是以排序的方式存储数据并允许以O(log n)的运行时间进行查找，顺序读取，插入和删除的数据结构。概括来说是一个节点可以拥有多于2个子节点的二叉查找树。在B-Tree中，内部（非叶子）节点可以拥有，预先设定范围数量内的多个子节点。当数据被插入或从一个节点中移除，它的子节点数量发生变化。

下面是B-Tree的结构图

上图说明了B-Tree的工作原理，在根节点中定义了叶子节点值的区间范围，叶子中存储了实际的值。当进行查找时，首先会使用条件值在根节点中选择一个合适叶子节点区间，然后再用条件值和叶子层某个区间内的叶子节点的值进行比较。

举个例子来说明其原理，例如学生表中的学生ID是有序递增的，图中的Key1 是100，Key2是200.当需要查询一个ID为90的学生时会在最左侧的叶子链表中进行搜索，如果需要查询一个ID为130的学生时，会在中间的叶子链表中进行查找。这样的查询方式因为避免了全表扫描，所以效率会大大的提高。

有一点需要注意，当把B-Tree索引建立在多个字段上时，（例如建立索引时顺序为 LastName, FirstName,BrithDay）,则每个Key值都是LastName,FirstName,Brithday这样的数据结构,匹配的叶子节点值的过程是按照索引中定义的字段顺序来进行比较的，所以在使用索引的过程中必须按照这样的顺序来使用，否则索引将得不到正确使用（比如你在Where条件中的顺序是Brithday , LastName, FirstName）。

由于在B-Tree中存储的索引数据都是有序的，如果在B-Tree索引上执行Order by，排序的效率也会大大的提高。

B-Tree的工作原理决定了它对下面的查询方式有良好的支持：

(1) 全索引匹配- 匹配条件包含索引的所有字段，以及完全匹配其字段顺序

(2) 只匹配索引的第一列

(3) 只匹配第一列的前缀（右匹配），例如 “where lastName like Sun%”

(4) 第一列的范围查找 –例如 “where lastName between “Steve” and “Tony”

(5) 第一列全匹配，第二列前缀匹配

(6) 要求返回的值，是索引的子集，例如 select LastName, FristName,Brithday from Student where LastName like ”Tony”. 因为B-Tree中包含了要求的值，所以在这种情况下可以让数据的访问只发生在B-Tree中而避免对数据表的访问（Mysql中有个专门的名词叫“覆盖索引”）

同时B-Tree的工作原理也决定了在使用下面的查询方式时，索引的功效会受到影响：

(1) 查询条件没有从索引的第一列开始，例如 where firstname=”Eric” andbirthday=’2010-10-10’

(2) 没有顺序的使用索引中的列，例如 where lastname=”Tony” andbirthday=”2010-10-10”

(3) 由于使用了模糊匹配，导致了值使用了索引的部分字段，例如 where lastname=’tony’ andfirstname like ‘Robert%’ and birthday=’2010-10-10’, 在这里只用到了索引的lastname以及firstname字段，brithday被like 操作给屏蔽掉了

前面列出了B-Tree索引在使用的过程中的一些问题，这些问题说明查询条件中字段的顺序对索引的使用会有比较大的影响。所以在设计索引或者查询条件时要注意字段的顺序问题。有些时候可能还会建立多个字段相同但是顺序不同的索引来弥补这种顺序问题。

Hash索引

顾名思义，这种类型的索引采取Hash的数据结构来存储索引。结构图大概为

存储的时候会把key通过Hash函数计算，得到key的Hash值,再用这个Hash值做指针和数据库记录指针绑定在一起。选定一个好的Hash函数很重要，好的Hash函数可以使计算出的Hash值分布均匀，降低冲突，只有冲突减小了，才会降低Hash表的查找时间。在查询的过程大概会分为四步

（1）根据查询条件生成一个Hash值例如在name 上建立了一个hash索引，且在查询条件where name=’John Smith’ 中’John Smith’的hash值是02.

（2）用02的Hash值到Hash索引表中找到对应的Bucket

（3）使用步骤(2)中Bucket包含的表指针(521-1234)找到数据库中的某条记录

（4）由于不同的name可能会有相同的Hash值，所以最后一步需要比较’John Smith’是否和已经找到的数据库记录的name相同，相同就返回当前记录，否则返回步骤2,寻找另外一条数据记录再进行匹配，直到找到对应的记录

Hash 索引结构的特殊性，决定了其检索效率非常的高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。

可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用Hash 索引而还要使用 B-Tree 索引呢？任何事物都是有两面性的，Hash 索引也一样，虽然 Hash 索引效率高，但是 Hash索引本身由于其特殊性也带来了很多限制和弊端，主要有以下这些。

（1）Hash 索引仅仅能满足"=","IN"和"<=>"查询，不能使用范围查询。
由于 Hash 索引比较的是进行 Hash 运算之后的 Hash 值，所以它只能用于等值的过滤，不能用于基于范围的过滤，因为经过相应的 Hash 算法处理之后的 Hash 值的大小关系，并不能保证和Hash运算前完全一样。

（2）Hash 索引无法被用来避免数据的排序操作。
由于 Hash 索引中存放的是经过 Hash 计算之后的 Hash 值，而且Hash值的大小关系并不一定和 Hash 运算前的键值完全一样，所以数据库无法利用索引的数据来避免任何排序运算；

（3）Hash 索引不能利用部分索引键查询。
对于组合索引，Hash 索引在计算 Hash 值的时候是组合索引键合并后再一起计算 Hash 值，而不是单独计算 Hash 值，所以通过组合索引的前面一个或几个索引键进行查询的时候，Hash 索引也无法被利用。

（4）Hash 索引在任何时候都不能避免表扫描。
前面已经知道，Hash 索引是将索引键通过 Hash 运算之后，将 Hash运算结果的 Hash 值和所对应的行指针信息存放于一个 Hash 表中，由于不同索引键存在相同 Hash 值，所以即使取满足某个 Hash 键值的数据的记录条数，也无法从 Hash 索引中直接完成查询，还是要通过访问表中的实际数据进行相应的比较，并得到相应的结果。

（5）Hash 索引遇到大量Hash值相等的情况后性能并不一定就会比B-Tree索引高。
对于选择性比较低的索引键，如果创建 Hash 索引，那么将会存在大量记录指针信息存于同一个 Hash 值相关联。这样要定位某一条记录时就会非常麻烦，会浪费多次表数据的访问，而造成整体性能低下。

值得一提的是，多数的数据库管理系统默认的索引类型为B-Tree(Oracle,Mysql-InnoDB),所以想要使用Hash索引的话，必须显示的设定其为Hash索引。很多比较智能的数据存储引擎（例如 Mysql 的InnoDB）会采用一种叫做“自适应Hash索引”来提高查询效率，这种机制的工作原理是当存储引擎使用B-Tree的索引类型时，如果发现某个索引的值被检索的非常频繁时，存储引擎会自动把该值当做Hash处理，以此来提高B-Tree的效率。

MySQL如何来选择合适的存储引擎来应对不同的业务场景。

MyISAM
- 特性
  1. 不支持事务：MyISAM存储引擎不支持事务，所以对事务有要求的业务场景不能使用
  2. 表级锁定：其锁定机制是表级索引，这虽然可以让锁定的实现成本很小但是也同时大大降低了其并发性能
  3. 读写互相阻塞：不仅会在写入的时候阻塞读取，MyISAM还会在读取的时候阻塞写入，但读本身并不会阻塞另外的读
  4. 只会缓存索引：MyISAM可以通过key_buffer缓存以大大提高访问性能减少磁盘IO，但是这个缓存区只会缓存索引，而不会缓存数据
- 适用场景
  1. 不需要事务支持（不支持）
  2. 并发相对较低（锁定机制问题）
  3. 数据修改相对较少（阻塞问题）
  4. 以读为主
  5. 数据一致性要求不是非常高
- 最佳实践
  1. 尽量索引（缓存机制）
  2. 调整读写优先级，根据实际需求确保重要操作更优先
  3. 启用延迟插入改善大批量写入性能
  4. 尽量顺序操作让insert数据都写入到尾部，减少阻塞
  5. 分解大的操作，降低单个操作的阻塞时间
  6. 降低并发数，某些高并发场景通过应用来进行排队机制
  7. 对于相对静态的数据，充分利用Query Cache可以极大的提高访问效率
  8. MyISAM的Count只有在全表扫描的时候特别高效，带有其他条件的count都需要进行实际的数据访问
InnoDB
- 特性
  1. 具有较好的事务支持：支持4个事务隔离级别，支持多版本读
  2. 行级锁定：通过索引实现，全表扫描仍然会是表锁，注意间隙锁的影响
  3. 读写阻塞与事务隔离级别相关
  4. 具有非常高效的缓存特性：能缓存索引，也能缓存数据
  5. 整个表和主键以Cluster方式存储，组成一颗平衡树
  6. 所有Secondary Index都会保存主键信息
- 适用场景
  1. 需要事务支持（具有较好的事务特性）
  2. 行级锁定对高并发有很好的适应能力，但需要确保查询是通过索引完成
  3. 数据更新较为频繁的场景
  4. 数据一致性要求较高
  5. 硬件设备内存较大，可以利用InnoDB较好的缓存能力来提高内存利用率，尽可能减少磁盘 IO
- 最佳实践
  1. 主键尽可能小，避免给Secondary index带来过大的空间负担
  2. 避免全表扫描，因为会使用表锁
  3. 尽可能缓存所有的索引和数据，提高响应速度
  4. 在大批量小插入的时候，尽量自己控制事务而不要使用autocommit自动提交
  5. 合理设置innodb_flush_log_at_trx_commit参数值，不要过度追求安全性
  6. 避免主键更新，因为这会带来大量的数据移动
NDBCluster
- 特性
  1. 分布式：分布式存储引擎，可以由多个NDBCluster存储引擎组成集群分别存放整体数据的一部分
  2. 支持事务：和Innodb一样，支持事务
  3. 可与mysqld不在一台主机：可以和mysqld分开存在于独立的主机上，然后通过网络和mysqld通信交互
  4. 内存需求量巨大：新版本索引以及被索引的数据必须存放在内存中，老版本所有数据和索引必须存在与内存中
- 适用场景
  1. 具有非常高的并发需求
  2. 对单个请求的响应并不是非常的critical
  3. 查询简单，过滤条件较为固定，每次请求数据量较少，又不希望自己进行水平Sharding
- 最佳实践
  1. 尽可能让查询简单，避免数据的跨节点传输
  2. 尽可能满足SQL节点的计算性能，大一点的集群SQL节点会明显多余Data节点
  3. 在各节点之间尽可能使用万兆网络环境互联，以减少数据在网络层传输过程中的延时

阅读全文

0 0