数据结构学习笔记--树

来源：互联网发布：土豆视频mac版编辑：程序博客网时间：2024/06/15 09:19

1、开场白

阿凡达 avatar 潘多拉星球 900英尺 274米参天大树

2、树的定义

研究一种一对多的数据结构考虑它的各种特性来解决我们在编程中碰到的相关问题。树（Tree）是n（n>=0)个结点的有限集。当n=0时，称为空树。在任意一颗非空树中：（1）有且仅有一个称为根（root）的结点；（2）当n>1时，其余结点可分为m（m>0)个互不相交的有限集T1、T2、T3、……、Tm，其中每一个集合本身又是一棵树，并且称为根的子树（SubTree）。
对于树的定义还需要强调两点：
1、n>0时根节点是唯一的；2、m>0时，子树的个数没有限制，但它们一定是互不相交的。

2.1 结点分类

树的结点包含一个数据元素及若干指向其子树的分支。结点拥有的子树数称为结点的度（Degree）。度为0的结点称为叶节点（leaf）或终端结点；度不为0的结点称为非终端结点或分支结点。除根节点之外，分支结点也称为内部结点。树的度是树内各结点的度的最大值。
结点分类：叶节点内部结点根节点

2.2 结点间关系

结点的子树的根称为该结点的孩子（Child），相应地，该结点称为孩子的双亲（Parent）。同一个双亲的孩子之间互称为兄弟（Sibling）。
结点的祖先是指从根节点到该结点所经分支上的所有结点，反之，以某结点为根的子树中的任一结点都称为该结点的子孙。

2.3 树的其他相关概念

结点的层次（Level）从根开始定义起，根为第一层，根的孩子为第二层。树中结点的最大层次称为树的深度（Depth）或高度。
如果将树中结点的各子树看成从左至右是有次序的，不能互换的，则称该树为有序树，否则称为无序树。森林（Forest）是m（m>=0）棵互不相交的树的集合。对树中的每个结点而言，其子树的集合即为森林（Forest）。
线性结构：第一个数据元素无前驱，最后一个数据元素无后继中间元素一个前驱一个后继；
树结构：根节点无双亲唯一；叶节点无孩子可以多个；中间结点一个双亲多个孩子；

3、树的抽象数据类型

相对于线性结构，树的操作就完全不同了，这里我们给出一些基本和常用操作。

ADT 树（Tree）
Data
树是由一个根节点和若干棵子树构成。树中结点具有相同数据类型及层次关系。
Operation
InitTree（*T)：构造空树T。
Destroy ( *T)：销毁树T。
CreateTree（*T，definition）：按definition中给出树的定义来构造树。
Clear（*T)：若树T存在，则将树T清为空树。
TreeEmpty（T）：若树为空树，返回True，否则返回false。
TreeDepth（T）：返回T的深度。
Root（T）：返回T的根节点；
Value（T,cur_e）：cur_e是树T中的一个结点，返回此结点的值；
Assign（T，cur_e，value）；给树T的结点cur_e赋值为value
Parent（T,cur_e）：若cur_e是树T的非根节点，则返回它的双亲，否则返回空。。。。

4、树的存储结构

顺序存储结构：用一段地址连续的存储单元依次存储线性表的数据元素。单一的顺序存储结构无法满足树的实现要求。不过充分利用顺序存储和链式存储结构的特点，完全可以实现对树的存储结构的表示。下面介绍三种不同的表示法：双亲表示法、孩子表示法、孩子兄弟表示法。

4.1 双亲表示法

树这种结构，除了根节点外，其余每个结点，它不一定有孩子，但是一定有且仅有一个双亲。我们假设以一组连续空间存储树的结点，同时在每个结点中，附设一个指示器指示其双亲结点到链表中的位置。data 是数据域存储结点的数据信息 parent是指针域，存储该结点的双亲在数组中的下标。

/*树的双亲表示法结点结构定义*/#define MAX_TREE_SIZE 100typedef int TElemType;//树结点的数据类型，目前暂定为整形tepedef struct PTNode //结点结构{    TElemType data;  //结点数据    int parent;      //双亲位置}PTNode；typedef struct{    PTNode nodes[MAX_TREE_SIZE];//结点数组    int r,n;}PTree；

有了这样的结点定义，我们就可以来实现双亲表示法。由于根节点是没有双亲的，所以我们约定根节点的位置域设置为-1，这也就意味着，我们所有的结点都有它双亲的位置。

下标 data parent 0 A -1 1 B 0

我们可以根据根节点的parent指针很容易找到它的双亲结点，所用的时间复杂度为O(1)，直到parent为-1时，表示找到了树结点的根。但是要想直到结点的孩子是什么，就得遍历整个结构了。
改进一下我们增加一个最左边孩子的域，不妨叫做长子域，这样就可以很容易得到结点的孩子。如果没有孩子的结点，这个长子域就设置为-1，

下标 data parent firstchild 0 A -1 1 1 B 0 3

4.2 孩子表示法

换一种完全不同的考虑方法。由于树中每个结点可能有多棵子树，可以考虑用多重链表，即每个结点有多个指针域，其中每个指针指向一颗子树的根节点，我们把这种方法叫做多重链表表示法。
方案一
一种是指针域的个数等于树的度。树的度是树的各个结点度的最大值。

data child1 child2 child3 … childd

其中data是数据域。child1到childd是指针域，用来指向该结点的孩子结点。
这种方法对于树中各结点的度相差很大时，显然是很浪费空间的，因为有很多的结点，它的指针域都是空的。不过如果树的各结点度相差很小时，那就意味着开辟的空间都被充分利用了，这时存储结构的缺点反而变成了优点。
既然很多指针域都可能为空，为什么不按需分配空间呢。
第二种方案
每个结点指针域的个数等于该结点的度，我们专门取一个位置来存储结点指针域的个数，其结构

data degree child1 child2 child3 …… childd

其中data为数据域，degree为度域，也就是存储该结点的孩子结点的个数， child1 到childd为指针域，指向该结点的各个孩子的结点。
这种方法克服了浪费空间的缺点，对空间利用率是很高了，但是由于各个结点的链表是不相同的结构，加上要维护结点的度的数值，在运算上就会带来时间上的损耗。

仔细观察，我们为了要遍历整棵树，把每个结点放到一个顺序存储结构的数组中是合理的，但每个结点的孩子有多少是不确定的，所以我们再对每个结点的孩子建立一个单链表作为存储结构，则n个结点有n个孩子链表，如果是叶子结点则此单链表为空，然后n个头指针又组成一个线性表，采用顺序存储结构，存放进一个一维数组中
为此设立两种结点结构，一个是孩子链表的孩子结点 child next
其中child是数据域，用来存储某个结点在表头数组中的下标。next是指针域，用来存储指向某结点的下一个孩子结点的指针。
孩子表示法的结构定义代码

/*树的孩子表示法结构定义*/#define MAX_TREE_SIZE 100typedef int TElemtype;//树结点的数据类型typedef struct CTNode //孩子结点{     int child;    struct CTNode *next;}*childPtr;typedef struct //表头结构{    TElemType data；    childPtr firstchild;}CTBox;typedef struct  //树结构{    CTBox nodes[MAX_TREE_SIZE];//结点数组    int r,n;根的位置和结点数}

4.3 孩子兄弟表示法

//树的孩子兄弟表示法typedef struct CSNode{    TElemType data;    struct CSNode *fisrtchild,*rightsib;}CSNode,*CSTree;

这种表示法的最大好处是把一颗复杂的树变成了一棵二叉树。

5、二叉树的定义

二叉树（Binary Tree）是n（n>=0）个结点的有限集合，该集合或者为空集（称为空二叉树），或者由一个根结点和两棵互不相交的、分别称为根结点的左子树和右子树的二叉树组成。
二叉树的特点：
1. 每个结点最多有两棵子树，所以二叉树中不存在度大于2的结点。注意不是只有两棵子树，而是最多有，没有子树或者有一棵子树都是可以的。左子树和右子树是有顺序的，次序不能任意颠倒。
2. 左子树和右子树是有顺序的，次序不能任意颠倒。
3. 即使树中某结点只有一棵子树，也要区分它是左子树还是右子树。
二叉树有五种基本形态：
1. 空二叉树。
2. 只有一个根节点
3. 根节点只有左子树
4. 根节点只有右子树
5. 根节点既有左子树又有右子树

5.2 特殊二叉树

1、斜树所有结点都是左子树的二叉树叫左斜树同理右斜树
2、满二叉树在一棵二叉树中，所有分支结点都存在左子树和右子树，并且所有叶节点都在同一层
3、完全二叉树对一棵具有n个结点的二叉树按层序编号，如果编号为i（1《i《n）的结点与同样深度的满二叉树中编号为i的结点在二叉树中位置完全相同

6、二叉树的性质

在二叉树的第i层上至多有2^(i-1)个结点
深度为k的二叉树至多有2^(k-1)个结点
对任意一棵二叉树T,如果其终端结点数为n0.度为2 的结点数为n2，则n0=n2+1;终端结点数其实就是叶子结点树，而一棵二叉树，除了叶子结点外，剩下的就是度为1或2的结点数了，我们设n1为度是1的结点数，则树T结点总数n=n0+n1+n2;分支线总数=n-1=n1+2*n2
具有n个结点的完全二叉树的深度为[log2n]+1

7、二叉树的存储结构

1、二叉树的顺序存储结构
2、二叉链表 lchild data right

8、遍历二叉树

1、二叉树遍历原理
二叉树的遍历（traversing binary tree）是指从根节点出发，按照某种次序依次访问二叉树中所有结点，使得每个结点被访问一次且仅被访问一次
2、二叉树遍历方法
如果我们限制从左到右的习惯方式，那么主要就分为四种：

前序遍历
从根节点开始然后左子树右子树 ABDGHCEIF
也就是根节点根节点左子树左子树右子树右子树左子树左子树右子树右子树
中序遍历
后序遍历
层序遍历

我们用图形的方式来表现树的结构，应该说是非常直观和容易理解，但是对于计算机来说，它只有循环、判断等方式来处理，也就是说，它只会处理线性序列，这就给程序的实现带来了好处。

9、二叉树的建立

扩展二叉树 #

//按前序输入二叉树中结点的值（一个字符）Void CreateBiTree (BiTree *T){   TElemType ch;   scanf("%c",&ch);   if(ch=='#')      *T=NULL;   else   {      *T=(BiTree)malloc(sizeof(BiTNode));      if(!*T)         exit(OVERFLOW);      (*T)->data=ch;//生成根节点      CreateBiTree(&(*T)->lchild);//构造左子树      CreateBiTree(&(*T)->rchild);//构造右子树   }}

其实建立二叉树，也是利用了递归的原理。只不过在原来应该是打印结点的地方，改成了生成结点，给结点赋值的操作而已

10、线索二叉树

1、线索二叉树原理
指向前驱和后继的指针称为线索，加上线索的二叉链表称为线索链表，相应的二叉树就称为线索二叉树（Threaded Binary Tree）。
二叉树以某种次序遍历使其变为线索二叉树的过程称做是线索化。

11、树、森林、与二叉树的转换

1、树转换为二叉树
加线、去线、层次调整
2、森林转换为二叉树
将每个树转换为二叉树，将后面的二叉树的根节点作为前一个二叉树的根节点的右孩子

12、赫夫曼树及应用

1、最基本的压缩编码方法——赫夫曼编码
2、赫夫曼树定义与原理
从树中一个结点到另一个结点之间的分支构成两个结点之间的路径，路径上的分支数目称为路径长度。树的路径长度就是从树根到每一个结点的路径长度之和。如果考虑到带权的结点，结点的带权路径长度为从该结点到树根之间的路径长度与结点上权的乘积。带权路径长度值最小的二叉树称为赫夫曼树
3、赫夫曼树的建立

0 0