mysql底层

来源：互联网发布：linux不记历史命令编辑：程序博客网时间：2024/06/15 02:36

索引的理解
MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。可以了解：索引是数据结构。
数据库查询是我们使用数据库时的最常用的功能之一。我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找（linear search），这种复杂度为O(n)的算法在数据量很大时显然是糟糕的，好在计算机科学的发展提供了很多更优秀的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。但是，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，但是数据本身的组织结构不可能完全满足各种数据结构（例如，理论上不可能同时将两列都按顺序进行组织），所以，在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引。
目前大部分数据库系统及文件都采用B-Tree和B+Tree作为索引结构。

索引
索引的目的：提高查询效率
原理：通过不断的缩小想要获得数据的范围来筛选出最终想要的结果，同时把随机的事件变成顺序的事件，也就是我们总是通过同一种查找方式来锁定数据。
数据结构：B+树
图解B+树与查找过程：
这里写图片描述

B+树的定义如下：
每个节点node有下面的属性： n个关键字key[1],key[2], … ,key[n]，以非降序存放，使得key[1]≤key[2]≤…≤key[n]；
isRoot，一个布尔值，如果node是根节点，则为TRUE；否则为FALSE；
isLeaf，一个布尔值，如果node是叶子节点，则为TRUE；否则为FALSE；
Node*类型的parent指针，指向该节点的父节点

每个内部节点还包含n个
指向其孩子children[0],children[1], … , children[n]，叶子节点没有孩子。（注：此处有争议，B+树到底是与B 树n-1个关键字有n棵子树保持一致，还是B+树n个关键字的结点中含有n棵子树；两种定义都可以，只要自己实现的时候统一用一种就行。如无特殊说明，以下的都是后者：即n个关键字对应n棵子树）；
内部节点的关键字对存储在各子树中的关键字范围加以分割：如果key[i]为任意一个存储在内部节点中的关键字，childNum[i]为该节点的对应下标的子树指针指向的节点的任意一个关键字，那么 key[1] ≤ childNum[1] < key[2] ≤ childNum[2] < key[3] ≤ childNum[3] < … < key[n] ≤ childNum[n]
内部节点并不存储真正的信息，而是保存其叶子节点的最小值作为索引。比如下图，标注1和标注2都是内部节点，里面保存的并不是真正的信息，而是标注3所示的节点中的最小值。(注：此处有争议以最大值作为索引，同样也是不影响的争议)

B+树的查找：
对B+树可以进行两种查找运算：
1.从最小关键字起顺序查找；
2.从根结点开始，进行随机查找。
在查找时，若非终端结点上的关键值等于给定值，并不终止，而是继续向下直到叶子结点。因此，在B+树中，不管查找成功与否，每次查找都是走了一条从根到叶子结点的路径。其余同B-树的查找类似。
以下是从根节点查找叶子节点k的伪代码：

Function: search (k)      return tree_search (k, root); Function: tree_search (k, node)      if node is a leaf then        return node;      switch k do    case k < k_0            return tree_search(k, p_0);      case k_i ≤ k < k_{i+1}            return tree_search(k, p_{i+1});      case k_d ≤ k            return tree_search(k, p_{d+1});//伪代码假设没有重复值

b+树性质
通过上面的分析，我们知道IO次数取决于b+数的高度h，假设当前数据表的数据为N，每个磁盘块的数据项的数量是m，则有h=㏒(m+1)N，当数据量N一定的情况下，m越大，h越小；而m = 磁盘块的大小 / 数据项的大小，磁盘块的大小也就是一个数据页的大小，是固定的，如果数据项占的空间越小，数据项的数量越多，树的高度越低。这就是为什么每个数据项，即索引字段要尽量的小，比如int占4字节，要比bigint8字节少一半。这也是为什么b+树要求把真实的数据放到叶子节点而不是内层节点，一旦放到内层节点，磁盘块的数据项会大幅度下降，导致树增高。当数据项等于1时将会退化成线性表。

阅读全文

0 0