数据结构第四章字符串和多维数组

来源：互联网发布：港澳游哪个软件好编辑：程序博客网时间：2024/04/28 17:58

4.1字符串

4.1.1字符串的定义

1.字符串的定义

字符串是零个或多个字符组成的有限序列，只包含空格的称为空格串。串中所包含的字符个数称为串的长度，长度为零的串称为空串。

字符串中任意个连续的字符组成的子序列称为该串的子串，包含子串的串称为主串。子串的第一个字符在主串中的序号称为子串在主串中的位置。

2.字符串的比较

给定两个字符串:

X="x1x2…xn"和Y="y1y2…ym"，则：
1. 当n=m且x1=y1，…，xn=ym时，称X=Y；
2. 当下列条件之一成立时，称X＜Y：
⑴ n＜m且xi=yi（1≤ i≤n）；
⑵存在k≤min(m,n)，使得xi=yi(1≤i≤k-1)且xk＜yk。

4.1.2字符串的存储结构

一般有三种方法表示字符串的长度：

（1）用一个变量来表示字符串的长度；

（2）在串尾存储一个不会在串中出现的特殊字符作为字符串的终结符；

（3）用数组的0号单元存放串的长度，串值从1号单元开始存放。

4.1.3模式匹配

给定两个字符串S="s1s2…sn"和模式T="t1t2…tm"，在S中寻找T 的过程称为模式匹配。如果匹配成功，返回T 在S中的位置；如果匹配失败，返回0。

1.朴素的模式匹配

这是一种带回溯的匹配算法，简称BF算法，其基本思想是：从主串S的第一个字符开始和模式T 的第一个字符进行比较，若相等，则继续比较两者的后续字符；否则，从主串S的第二个字符开始和模式T 的第一个字符进行比较，重复上述过程，直到T 中的字符全部比较完毕，则说明本趟匹配成功；或S中字符全部比较完，则说明匹配失败。

伪代码：

1. 在串S和串T中设比较的起始下标i和j；
2. 循环直到S或T的所有字符均比较完
2.1 如果S[i]=T[j]，继续比较S和T的下一个字符；
2.2 否则，将i和j回溯，准备下一趟比较；
3. 如果T中所有字符均比较完，则匹配成功，返回匹配的起始比较下标；否则，匹配失败，返回0；

朴素的模式匹配算法BF

int BF(char S[ ], char T[ ])
{
     i=0; j=0;
    while (S[i]!='\0'&&T[j]!='\0')
    {
         if (S[i]==T[j]) {
             i++;   j++;
         }
         else {
             i=i-j+1;    j=0;
         }
     }
     if (T[j]=='\0') return (i-j+1);
     else return 0;
}

（1）设串S长度为n，串T长度为m，在匹配成功的情况下，考虑两种极端情况：
最好情况：不成功的匹配都发生在串T的第1个字符。
例如：S="aaaaaaaaaabcdccccc"
T="bcd "
设串S长度为n，串T长度为m，在匹配成功的情况下，考虑两种极端情况：
最好情况：不成功的匹配都发生在串T的第1个字符。
设匹配成功发生在si处，则在i-1趟不成功的匹配中共比较了i-1次，第i趟成功的匹配共比较了m次，所以总共比较了i-1+m次，所有匹配成功的可能情况共有n-m+1种，则：（即共比较了i趟，前i-1趟均只比较了1次，而第i趟比较了m次）

（2）设串S长度为n，串T长度为m，在匹配成功的情况下，考虑两种极端情况：
最坏情况：不成功的匹配都发生在串T的最后一个字符。
例如：S="aaaaaaaaaaabccccc"
T="aaab"
设串S长度为n，串T长度为m，在匹配成功的情况下，考虑两种极端情况：
最坏情况：不成功的匹配都发生在串T的最后一个字符。
设匹配成功发生在si处，则在i-1趟不成功的匹配中共比较了(i-1)×m次，第i趟成功的匹配共比较了m次，所以总共比较了i×m次，因此

2.改进的模式匹配算法KMP算法

其基本思想是主串不进行回溯

结论： i可以不回溯，模式向右滑动到的新比较起点k ，并且k 仅与模式串T有关！

KMP算法的伪代码描述：

1. 在串S和串T中分别设比较的起始下标i和j；
2. 循环直到S或T的所有字符均比较完
     2.1 如果S[i]=T[j]，继续比较S和T的下一个字符；否则
     2.2 将j向右滑动到next[j]位置，即j=next[j]；
     2.3 如果j=-1，则将i和j分别加1，准备下一趟比较；
3. 如果T中所有字符均比较完毕，则返回匹配的起始下标；否则返回0；

4.2多维数组

4.2.1多维数组的定义

数组是由类型相同的数据元素构成的有序集合，每个数据元素称为一个数组元素，每个元素受n（n≥1）个线性关系约束，每个元素在n个线性关系中的序号i1，i2，……in称为该元素的下标，并称该数组为n维数组。

数组的特点：元素本身可以具有某种结构，属于同一数据类型；
数组是一个具有固定格式和数量的数据集合。

数组的基本操作：

⑴ 存取：给定一组下标，读出对应的数组元素；
⑵ 修改：给定一组下标，存储或修改与其相对应的数组元素。

存取和修改操作本质上只对应一种操作——寻址

常用的映射方法有两种：
按行优先：先行后列，先存储行号较小的元素，行号相同者先存储列号较小的元素。
按列优先：先列后行，先存储列号较小的元素，列号相同者先存储行号较小的元素。

特殊矩阵：矩阵中很多值相同的元素并且它们的分布有一定的规律。

稀疏矩阵：矩阵中有很多零元素。
压缩存储的基本思想是：
⑴ 为多个值相同的元素只分配一个存储空间；
⑵ 对零元素不分配存储空间。
对角矩阵：所有非零元素都集中在以主对角线为中心的带状区域中，除了主对角线和它的上下方若干条对角线的元素外，所有其他元素都为零。

对角矩阵的压缩存储

稀疏矩阵的压缩存储
三元组表：将稀疏矩阵的非零元素对应的三元组所构成的集合，按行优先的顺序排列成一个线性表

存储结构定义：
    const int MaxTerm=100;
    template <class DataType>
    struct SparseMatrix
    {
       DataType data[MaxTerm];       //存储非零元素
       int mu, nu, tu;           //行数、列数、非零元个数
    };

稀疏矩阵的压缩存储——十字链表
采用链接存储结构存储三元组表，每个非零元素对应的三元组存储为一个链表结点，结构为：

row：存储非零元素的行号
col：存储非零元素的列号
item：存储非零元素的值
right：指针域，指向同一行中的下一个三元组
down：指针域，指向同一列中的下一个

0 0