SQL Server2005中的IAM链

来源：互联网发布：ubuntu虚拟机硬盘扩容编辑：程序博客网时间：2024/06/08 15:31

原文地址：
http://blogs.msdn.com/b/sqlserverstorageengine/archive/2006/06/25/under-the-covers-iam-chains-and-allocation-units-in-sql-server-2005.aspx

现在，我们开始IAM链的第二部分。
昨天，我解释了什么是IAM链和在SQL SERVER 2000中是如何和索引相配对的。一个表可以有一个堆或聚集索引，可有249个非聚集索引，可有一个LOB索引（一般称为TEXT索引），这就是说SQL SERVER 2000中，一个表中最多有251个IAM链。
在SQL SERVER 2005中，IAM链和IAM页与SQL SERVER 2000中是一模一样的，但是现在一个表可以拥有750000条IAM链！喔，我们到底干了什么？

现在IAM链为三类东西映射分配空间：
1．堆和B树（B树是系统用来存储索引的内部结构）
2．LOB数据
3．行溢出数据

我们称这些分配空间的单元为分配单元（allocation units），这三类分配单元的相应的内部名称为：
1．HOBT分配单元（发音和指环王中的霍比特人一样）
2．LOB分配单元
3．SLOB分配单元(SMALL –LOB)
对应的外部名称为：
1．IN_ROW_DATA分配单元
2．LOB_DATA分配单元
3．ROW_OVERFLOW_DATA分配单元

让我们来看看引起变化的SQL SERVER 2005的新增的3个特性，这些特性增加了每个表的IAM链数目的潜力。

一．包含列
这项功能可以在非聚集索引的叶节点中包含非键列。这条特性因为下面三个原因所以非常有用：
1．当查询结果包含超过16列或者所有列的总长度大于900字节时，它允许一个非聚集索引真正地覆盖一个查询（还记得吗？在SQL SERVER中，一个非聚集索引键不能超过16列且不能超过900个字节。）。
2．它允许不能作为索引键的数据类型包含在非聚集索引（比如text或者XML类型）中。
3．它允许一个非聚集索引覆盖一个查询而又不需要所有的查询列都作为索引键列。因为索引键会包含在B树的所有层的行中，所以包含列可以使得索引占用的空间更小。

举个节省空间的例子：假设有一个1亿行的索引，其键长度为900字节，但是实际上只有前面2个整数需作为索引键，其它4个固定列可以作为包含列。
一个900字节的索引，那么1页只能包含8行（比如，fanout为8）。这就是说叶节点需要12500000页，上一层为1562500页……做个汇总，一共需要12500000 + 1562500 + 195313 + 24415 + 3052 + 382 + 48 + 6 + 1 = 14285717页（包括叶节点以上层的1785717页）。
如果我们使用包含列的方法使得键缩为8个字节，那么B树的叶节点以上层一行大小为15字节（包含了一些行的负载，这样fanout约为537）。注意叶节点的fanout还是8，因为存储在叶节点上的数据是一样的。这样还是12500000页叶节点，但是上一层结点为23278页。所以总的为：12500000 + 23278 + 44 + 1 = 12523323页（包括叶节点以上层的23323页）。和上面的900字节的键比较，这节省了1762394页（12%）或者13.6GB。当然这个例子有点夸张，但是节省空间是显而易见的。

跑点题，其实增加包含列这种特性的主要原始是可以真正地覆盖查询。一个覆盖查询是指查询优化器知道从一个非聚集索引中得到所有查询结果，所以就没有必要使用额外的IO从基表中查询数据就能满足查询，这是非常重大的性能节省。

现在非聚集索引有了包含列，这些列可以是LOB数据类型。这就是说SQL SERVER 2005再也没有必要有一个单独的LOB分配单元（在SQL SERVER 2000中有一个单独的text索引）了，因为每个索引都有自己的LOB组了。你可能会问我们为什么没有增加单独一组LOB，然后让各个索引和基表指向这些LOB列？我们确实曾经考虑过，但发现它会使问题更加复杂。
所以，有了这个特性，每个索引需要两个分配单元——一个是为数据或索引（HOBT分配单元），一个为任意的LOB数据。

二．巨行（Large Rows）
一个一直折磨架构设计师的问题是表的行大小的8060字节限制。在SQL SERVER 2005中，我们去除了这个限制。我们解决这个问题的方法是当行的长度太长以至于不能放在一个单独的页中，允许系统把变化长度列（如varchar, sqlvariant）挤出行去。
那么这些列的值被挤到什么地方去呢？我们有效地将它转换成小的LOB列。行中列值由一个指向挤出列值的16字节指针所代替，挤出列就好像是一个LOB值被存储在一个独立的分配单元——行溢出分配单元（SLOB）中。这些值和正规的LOB值一样存储在text页中，只不过用的是一个独立的分配单元，只要当行中有一列被挤出时就会创建SLOB分配单元。
这种巨行特性同样适用于非聚集索引。如果你考虑在非聚集索引中使用包含列，那么你的非聚集索引很容易超过一个页的大小。如果不在非聚集索引上使用行溢出特性，那么我们将刚摆脱了900字节的限制，又会有8060字节的限制了。
现在有了这些特性，每个索引能有三个分配单元——HOBT、LOB和SLOB。即使这样，一个表最多也就是有750个IAM链啊（记住IAM链现在用来映射分配单元了，所以250个索引*3个分配单元=750个IAM链）。但是我前面提到每个表有750000个IAM啊——剩下的是从哪儿来啊？

三．分区
分区给了我们1000倍的能力。可能你早就知道了，SQL SERVER 2005中新增的分区特性使表和索引能被分割成一系列的段，每个段被单独存储（更常见的是被存储在单独的文件组中）。分区需要另一文介绍。
如果表或索引的每个段或分区是单独存储的，那么每个存储就需要它自己的HOBT分配单元。当然，每个分区可以存储LOB值，所以每个分区需要一个LOB分配单元。还有每个行的行溢出特性，就像未分区时表和索引一样，每个分区中的行会溢出至SLOB分配单元中。所以每个表或索引的分区都能有3个分配单元（，也就有了3个IAM链）。
那么1000倍是从哪儿来的呢？这是因为每个表或索引可以有1000个分区。就是250索引*1000分区*3个分配单元=750000个IAM链。现实中这可能并不会发生，这只是一种可能性。

现在你已经知道SQL SERVER 2000和2005中一些内部结构了，希望这对理解我以后的文章有所帮助。