多益机试题目--字符串匹配的变形

来源:互联网 发布:信息过滤软件 编辑:程序博客网 时间:2024/06/15 01:01

多益一道机试题目,共有3道,这应该算是最难的一道了。题目如下:

现有字符串str1和str2,如果str1通过移位,可以包含str2,那么就说str1包含str2,否则不包含。要求尽可能高效。

输入:str1和str2。

输入:如果包含则输出yes,否则输出no。

例如:ABCDEF包含FA(移位后包含,例如可以变为FABCDE),而ABCDEF不包含FFA。

我想这道题目应该主要想考察KMP或BM算法,虽然了解,但是当时不能上网,我也不能保证可以写对,就直接暴力求解了。多益给的开发环境是vs2005,这样的匹配查找也有对应的库函数,可是记不住,vs2005提示的库函数中,我有没找到。


思路分析:一起见到的题目都是字符串匹配,没有移位。加上移位,需要变通一下,最简单的是暴力求解,每移位一次,匹配一次,直到穷尽移位。

移位过程中,字母左右两边挨着的字母不变(认为第一个和最后一个是挨着的),而字符串匹配,匹配过程中也是挨个匹配。这样想的话,我们可以把母串首位相接,这就包含了所有移位的情况。如果母串首位相接(母串=母串+母串)后包含子串,那么就包含子串(前提是母串长度不小于子串,首位相接会使母串长度加倍)。

解法1:用C++库函数

先看一下这个库函数

int find(const string &s, int pos = 0) const;//从pos开始查找字符串s在当前串中的位置,查找失败返回-1

#include<iostream>#include<string>using namespace std;int main(){string str1;string str2;cin>>str1>>str2;if(str1.length()>=str2.length())//母串不能短于子串{str1=str1+str1;int pos=str1.find(str2);if(pos!=-1)cout<<"yes"<<endl;else cout<<"no"<<endl;return 0;}cout<<"no"<<endl;return 0;}
解法2:KMP算法。

我想多益考察的应该不是怎么用这个库函数吧!“尽可能高效”也提示我们要用高效算法。下面给出KMP算法实现。

其中KMP算法参考http://blog.csdn.net/v_JULY_v/article/details/6545192

#include<iostream>#include<string>using namespace std;//求KMP的Next数组void GetNext(const char *p,int *Next){int len=strlen(p);int i=0;int j=-1;Next[i]=j;while(i<len-1){if(j==-1||p[i]==p[j]){i++;j++;if(p[i]!=p[j])//不允许出现P[i]==P[next[i]]Next[i]=j;elseNext[i]=Next[j];}else{j=Next[j];}}}//S为母串,p为匹配子串,如果匹配返回匹配位置,否则返回-1int KMPSearch(const char *s,const char *p){int Slen=strlen(s);int Plen=strlen(p);int *Next=new int[Plen];//Next数组存储位置GetNext(p,Next);//求得Next数组int i=0;//在S串中的下标int j=0;//在P串中的下标while(i<=Slen-Plen&&j<Plen){if(j==-1||s[i]==p[j]){i++;j++;}else j=Next[j];}delete[] Next;if(j==Plen)return i-Plen;elsereturn -1;}int main(){string str1;string str2;cin>>str1>>str2;if(str1.length()>=str2.length())//母串不能短于子串{str1=str1+str1;const char *s1=str1.c_str();const char *s2=str2.c_str();int pos=KMPSearch(s1,s2);if(pos!=-1)cout<<"yes"<<pos<<endl;else cout<<"no"<<endl;return 0;}cout<<"no"<<endl;return 0;}

解法3:BM算法

BM匹配是从后向前搜索匹配,匹配失败,前进的距离依靠坏字符和好后缀。

坏字符相对比较简单,如果不包含坏字符,则移动length距离,否则坏字符与匹配串最右边的对应字符对其。

初始化坏字符移动距离如下:

/*p为匹配子串,BmBc为坏字符集*/void GetBmBc(const char *p,int BmBc[]){int len=strlen(p);for(int i=0;i<256;i++)//初始化坏字符集BmBc[i]=len;for(int i=0;i<len;i++)BmBc[*(p+i)]=len-i-1;}

好后缀移动距离的计算比较复杂。计算需要一个算法ZBox来帮助,ZBox可参考http://www.cnblogs.com/dsky/archive/2012/05/04/2482984.html

BM好后缀需要的是ZBox的变形,ZBox是从左向右计算,而BM好后缀需要从后向前(从右向左)。因此在计算ZBox前要先反转匹配子串,计算的ZBox值在使用前也要反转。

计算ZBox代码如下:

/*ZBox匹配算法p为字符串,len为字符串长度,ZBox[]为存储的值*/void GetZBox(const char *p,int len,int ZBox[]){ZBox[0]=len;int left=0;int right=0;for(int i=1;i<len;i++){//如果i在ZBox匹配字符串的范围内if(i<right){int k=i-left;if(ZBox[k]<right-i+1)ZBox[i]=ZBox[k];else{//否则接着前面的继续匹配int j=right+1;while(j<len&&p[j]==p[j-i])j++;//更新left和rightleft=i;right=j-1;ZBox[i]=right-left+1;}}//i不在ZBox匹配范围内,之内重新匹配了,不能利用之前的值了else{int j=0;while(p[j]==p[i+j]&&i+j<len){j++;}//更新left和rightleft=i;right=i+j-1;ZBox[i]=right-left+1;}}}
计算好ZBox后可以计算好后缀了,好后缀计算分三种情况,参考http://blog.csdn.net/sealyao/article/details/4568167#

但是作者写的代码不全,完整版如下:

/*p匹配子串,BmGc好后缀移动距离存储,ZBox存储ZBox的原始值*/void GetBmGc(const char *p,int BmGc[], int ZBox[]){int len=strlen(p);//先把ZBox反转int start=0;int end=len-1;while(start<end){int temp=ZBox[start];ZBox[start]=ZBox[end];ZBox[end]=temp;start++;end--;}for(int i=0; i<len; i++)//第一种情况BmGc[i]=len;int j=0;for(int i=0; i<len; i++)//第二种情况if(ZBox[i]==i+1)for(;j<=len-i-1; j++)BmGc[j]=len-1-i;for(int i=0; i<=len-2; i++)//第三种情况BmGc[len-1-ZBox[i]]=len-1-i;}

完成上述初始化后,可以用BM算法来匹配了。



0 0
原创粉丝点击