第4章 字符串和多维数组

来源:互联网 发布:网络渲染软件有哪些 编辑:程序博客网 时间:2024/06/05 08:37

第4章 字符串和多维数组

4.1 字符串

4.1.1 字符串的定义

字符串的定义

串:零个或多个字符组成的有限序列。

串长度:串中所包含的字符个数。

空串:长度为0的串,记为:""。

非空串通常记为: S=" s1 s2 …… sn "

其中:S是串名,双引号是定界符,双引号引起来的部分是串值,si(1≤i≤n)是一个任意字符。

子串:串中任意个连续的字符组成的子序列。

主串:包含子串的串。

子串的位置:子串的第一个字符在主串中的序号。

例:求" world"的子串。

共16个:"";

         " world",

         " worl"," orld";

         " wor","orl ","rld";

         " wo"," or","rl","ld ";

         " w"," o","r","l "," d"。

字符串的比较

串的比较:通过组成串的字符之间的比较来进行的。

给定两个串:X="x1x2…xn"和Y="y1y2…ym",则:

1. 当n=m且x1=y1,…,xn=ym时,称X=Y;

2. 当下列条件之一成立时,称X<Y:

⑴ n<m且xi=yi(1≤ i≤n);

⑵存在k≤min(m,n),使得xi=yi(1≤i≤k-1)且xk<yk

(按字典比较)

 

4.1.2 字符串的存储结构

表示串的长度:

 方案1:用一个变量来表示串的实际长度。

 方案2:在串尾存储一个不会在串中出现的特殊字符作为串的终结符,表示串的结尾。

 方案3:用数组的0号单元存放串的长度,从1号单元开始存放串值。

 

4.1.3 模式匹配

模式匹配:

  给定主串S="s1s2…sn"和模式T="t1t2…tm",在S中寻找T 的过程称为模式匹配。如果匹配成功,返回T 在S中的位置;如果匹配失败,返回0。

朴素的模式匹配算法:

  基本思想:从主串S的第一个字符开始和模式T 的第一个字符进行比较,若相等,则继续比较两者的后续字符;否则,从主串S的第二个字符开始和模式T的第一个字符进行比较,重复上述过程,直到T 中的字符全部比较完毕,则说明本趟匹配成功;或S中字符全部比较完,则说明匹配失败。

  伪代码:

1. 在串S和串T中设比较的起始下标i和j;

2. 循环直到S或T的所有字符均比较完

    2.1 如果S[i]=T[j],继续比较S和T的下一个字符;

    2.2 否则,将i和j回溯,准备下一趟比较;

3. 如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标;否则,匹配失败,返回0;

朴素的模式匹配算法BF:

  int BF(char S[ ], char T[ ])

{

     i=0; j=0;  

    while (S[i]!='\0'&&T[j]!='\0')

    {

         if (S[i]==T[j]) {

             i++;   j++;

         } 

         else {

             i=i-j+1;    j=0;

         }  

     }

     if (T[j]=='\0') return (i-j+1);  

     else return 0;

}

设串S长度为n,串T长度为m,在匹配成功的情况下,考虑两种极端情况:

(1)最好情况:不成功的匹配都发生在串T的第1个字符。

设匹配成功发生在si处,则在i-1趟不成功的匹配中共比较了i-1次,第i趟成功的匹配共比较了m次,所以总共比较了i-1+m次,所有匹配成功的可能情况共有n-m+1种,则:(即共比较了i趟,前i-1趟均只比较了1次,而第i趟比较了m次)。所以,最好情况下的时间复杂度为:O(n+m).

(2)最坏情况:不成功的匹配发生在串T的最后一个字符。

设匹配成功发生在si处,则在i-1趟不成功的匹配中共比较了(i-1)×m次,第i趟成功的匹配共比较了m次,所以总共比较了i×m次。所以,最坏情况下的时间复杂度为O(n*m).

KMP算法:

基本思想:主串不进行回溯

结论: i可以不回溯,模式向右滑动到的新比较起点k ,并且k 仅与模式串T有关!

抓住部分匹配时的两个特征:设模式滑动到第 k 个字符

(1)则T[0]~T[k-1]= S[i-k]~S[i-1]

(2)则T[j-k]~T[j-1]= S[i-k]~S[i-1]

 两式联立可得:T[0]~T[k-1]= T[j-k]~T[j-1]

计算next[j](T[i]对应的k值,0<=j<=m)的方法:

(1)当j=0时,next[j]=-1;  

next[j]=-1表示不进行字符比较

(2)当j>0时,next[j]的值为:模式串的位置从0到j-1构成的串中所出现的首尾相同的子串的最大长度。

(3)当无首尾相同的子串时next[j]的值为0。

next[j]=0表示从模式串头部开始进行字符比较

KMP算法的伪代码描述:

1. 在串S和串T中分别设比较的起始下标i和j;

2. 循环直到S或T的所有字符均比较完

     2.1 如果S[i]=T[j],继续比较S和T的下一个字符;否则

     2.2 将j向右滑动到next[j]位置,即j=next[j];

     2.3 如果j=-1,则将i和j分别加1,准备下一趟比较;

 3. 如果T中所有字符均比较完毕,则返回匹配的起始下标;否则返回0;

 

4.2 多维数组

 

4.2.1 数组的定义

数组是由一组类型相同的数据元素构成的有序集合,每个数据元素称为一个数组元素(简称为元素),每个元素受n(n≥1)个线性关系的约束,每个元素在n个线性关系中的序号i1、i2、…、in称为该元素的下标,并称该数组为 n 维数组。

数组的特点:

(1)元素本身可以具有某种结构,属于同一数据类型;

(2)数组是一个具有固定格式和数量的数据集合。

例:

元素a22受两个线性关系的约束,在行上有一个行前驱a21和一个行后继a23,在列上有一个列前驱a12和和一个列后继a32

二维数组是数据元素为线性表的线性表。

数组的基本操作:

⑴ 读操作:给定一组下标,读出对应的数组元素;

⑵ 写操作:给定一组下标,存储或修改与其相对应的数组元素。

这两种操作本质上只对应一种操作——寻址,即根据一组下标定位相应的数组元素。

 

4.2.2 数组的存储结构与寻址

设一维数组的下标的范围为闭区间[l,h],每个数组元素占用 c 个存储单元,则其任一元素 ai 的存储地址可由下式确定:Loc(ai)=Loc(al)+(i-l)×c 。

二维数组常用的映射方法有两种:

按行优先:先行后列,先存储行号较小的元素,行号相同者先存储列号较小的元素。

按列优先:先列后行,先存储列号较小的元素,列号相同者先存储行号较小的元素。

按行优先aij在一维数组中的下标为:(i-1)*n+(j-1)。

 

4.3 矩阵的压缩存储

特殊矩阵:矩阵中很多值相同的元素并且它们的分布有一定的规律。

稀疏矩阵:矩阵中有很多零元素。

压缩存储的基本思想是:

  ⑴为多个值相同的元素只分配一个存储空间;

  ⑵对零元素不分配存储空间。

 

4.3.1 对称矩阵的压缩存储

对称矩阵的特点:

在一个n阶方阵中,有aij=aji(1<=i,j<=n)。

对于下三角中的元素aij(i≥j),在数组SA中的下标k与i、j的关系为:k=i×(i-1)/2+j -1。

上三角中的元素aij(i<j),因为aij=aji,则访问和它对应的元素aji即可,即:k=j×(j-1)/2+i -1 。

4.3.2 三角矩阵的压缩存储

只存储上三角(或下三角)部分的元素。

下三角矩阵中任一元素aij在数组SA中的下标k与i、j的关系为:当i>=j时,k=i×(i-1)/2+j -1;当i<j时,k=n(n+1)/2。

上三角矩阵中任一元素aij在数组SA中的下标k与i、j的关系为:当i>=j时,k=(2n-i+2)×(i-1)/2+j -i;当i<j时,k=n(n+1)/2。

 

4.3.3 对角矩阵的压缩存储

对角矩阵:所有非零元素都集中在以主对角线为中心的带状区域中,除了主对角线和它的上下方若干条对角线的元素外,所有其他元素都为零。

对于一个m*n的w对角矩阵(w是占有非0元素的对角线的个数,也称带宽),压缩方法有:

(1)将其压缩到一个m行w列的二维数组B中

(2)将对角矩阵压缩存储到一维数组C中,按行存储其非0元素。

 

4.3.4 稀疏矩阵的压缩存储

稀疏矩阵中的非零元素的分布没有规律。

将稀疏矩阵中的每个非零元素表示为:

(行号,列号,非零元素值)——三元组

定义三元组:

emplate <class DataType>

struct element

{   

   int row, col;                   //行号,列号

   DataType item                //非零元素值

};

三元组表:将稀疏矩阵的非零元素对应的三元组所构成的集合,按行优先的顺序排列成一个线性表。

(1)三元组顺序表

其存储结构定义:

   const int MaxTerm=100;

   template <class DataType>

   struct SparseMatrix

    {

      DataType data[MaxTerm];       //存储非零元素

      int mu, nu, tu;           //行数、列数、非零元个数

   };

(2)十字链表

采用链接存储结构存储三元组表,每个非零元素对应的三元组存储为一个链表结点。

row:存储非零元素的行号;

col:存储非零元素的列号;

item:存储非零元素的值;

right:指针域,指向同一行中的下一个三元组;

down:指针域,指向同一列中的下一个三元组。

 

 

0 0
原创粉丝点击