字符串匹配算法总结

来源:互联网 发布:log4j 写入数据库 mdc 编辑:程序博客网 时间:2024/05/17 01:23

 

一、最简单的BF算法

从文本T的第一个字母和模式P的第一个字母匹配,如果不匹配,则从T的第二个字母开始匹配。

int BF(char *str, char *ch){int len1 = strlen(str);int len2 = strlen(ch);int i=0,j=0; while (i < len1 && j < len2){if (str[i] == ch[j]){i++;j++;}else{i = i - j + 1;j = 0;}}if (j>=len2)return i-j-1;elsereturn -1;}//或者这样写int BF(char *str, char* ch){int i=0; int len1 = strlen(str);int len2 = strlen(ch);while(i <= len1 - len2){int j = 0;while (str[i] == ch[j] && j < len2){i++;j++;}if (j == len2)return i - len2;//到达P的结尾,匹配成功i = i - j + 1;//匹配不成功,向右移一个位置}return -1;//T中剩余的字符比|P|少,匹配失败}

最坏的情况是“每次比较都在最后一个字符出现不等,每趟最多比较M次,最多比较N-M+1趟,总的比较次数最多为M*(N-M+1)” ,时间复杂性为0(M*N)。
 

二、KMP算法

 1)next[j]数组求解。非常简单,就是求最长真子串。例如:

①ababcabcd的next[j]数组

next[0]=-1;

j = 1:→ab,b前面只有一个a,没有真子串,所以next[1]=0

j = 2:→aba,a前面是ab,没有真子串,next[2]=0

j = 3:→abab,b前面是aba,真子串最大长度为1,next[3]=1

j = 4:→ababc,c前面是abab,真子串最大长度为2,next[4]=2

j = 5:→ababca,a前面是ababc,没有真子串,next[5] = 0

j = 6:→ababcab,b前面是ababca,真子串最大长度为1,next[6] = 1

j = 7:→ababcabc,c前面是ababcab,没有真子串,next[7] = 0

j = 8:→ababcabcd,d前面是ababcabc,没有真子串,next[8] = 0

 

②aaaaaaaaab的next[]数组

next[0]=-1;

j = 1:→aa,b前面是a,没有真子串,所以next[1]=0

j = 2:→aaa,a前面是aa,真子串最大长度为1,next[2]=1

j = 3:→aaaa,a前面是aaa,真子串最大长度为2,next[3]=2

j = 4:→aaaaa,a前面是aaaa,真子串最大长度为3,next[4]=3

j = 5:→aaaaaa,a前面是aaaaa,真子串最大长度为4,next[5] = 4

j = 6:→aaaaaaa,a前面是aaaaaa,真子串最大长度为5,next[6] = 5

j = 7:→aaaaaaaa,a前面是aaaaaaa,真子串最大长度为6,next[7] = 6

j = 8:→aaaaaaaaa,a前面是aaaaaaaa,真子串最大长度为7,next[8] = 7

j = 9:→aaaaaaaaab,b前面是aaaaaaaaa,真子串最大长度为8,next[8] = 8

 

void getNext(char *patt, int *next){int j = 1, k = 0;next[0] = -1;next[1] = 0;while (j < strlen(patt)){if (patt[j] == patt[k]){next[j+1] = k+1;j++;k++;}else if (k == 0){next[j+1] = 0;j++;}elsek = next[k];}}


2)KMP模式匹配算法是:

KMP算法解决匹配中哪些主要问题:

A.当字符串比较出现不等时,确定下一趟比较前,应该将P右移多少个字符; 

B. P右移后,应该从哪个字符开始和T中刚才比较时不等的那个字符继续开始比较。

 

int KMP(char *str, char *ch, int next[]){int i=0,j=0;int len1 = strlen(str);int len2 = strlen(ch);while (i<len1 && j < len2){if (str[i] == ch[j]){i++;j++;}else if (j == 0)i++;elsej = next[j];}if (j == len2)return i-len2;elsereturn -1;}


下面是一个比较完整的程序:

#include<stdio.h>#include<string.h>#include<stdlib.h>FILE *fin=fopen("test.in","r");FILE *fout=fopen("test.out","w");char s1[200],s2[200];int next[200];int max(int a,int b){    if(a>b) return a;    return b;}void getnext(){    memset(next,0,sizeof(next));    int i=-1,j=0;    next[0]=-1;    while(j<strlen(s2))    {           if(i==-1||s2[i]==s2[j]){               i++;  j++;                 next[j]=i;           }           else i=next[i];    }}int KMP(){    int i=0,j=0,len1=strlen(s1),len2=strlen(s2);    while((i<len1)&&(j<len2))    {        if(j==-1||s1[i]==s2[j]) {j++;i++;}        else j=next[j];    }    if(j==len2) return i-len2;    else return -1;}int index_KMP(){    int i=0,j=0,len1=strlen(s1),len2=strlen(s2),re=0;    while(i<len1&&j<len2)    {                         if(j==-1||s1[i]==s2[j]) {i++;j++;}                         else j=next[j];                         re=max(re,j);    }    return re;}int main(){    fscanf(fin,"%s",s1);    for(int i=1;i<=3;i++)    {            fscanf(fin,"%s",s2);            getnext();            fprintf(fout,"%d %d\n",KMP(),index_KMP());    }    return 0;}

参考来源:http://www.cppblog.com/suiaiguo/archive/2009/07/16/90237.html


 

原创粉丝点击