KMP算法理解

来源:互联网 发布:python脚本实例 编辑:程序博客网 时间:2024/05/22 10:26

KMP算法:

字符串查找算法。在主串中是否包含模板串,如果包含,返回包含处的起始位置。

暴力匹配字符串时,是通过逐次比较来实现。主串str, 模板串ptr, 如果相同,返回起始位置,如果不相同,从主串的下一个位置开始重新比较。

KMP算法思想:

在遇到不匹配时,不再是单纯后移一位,而是充分利用ptr串的性质(eg.重复出现的字段), 可能一次跳跃多个位置再进行下一次比较,实现最大的移动量,使复杂度由O(n*m)提高到O(n+m)。

KMP算法的核心

计算Next数组  --------  Next数组表示的是:记录当前位置之前的字符串的最长相同前缀与后缀的长度(不包括字符串本身,否则最大长度始终是字符串本身),并且表示失配后下一次跳转到的位置。

eg.若第i个位置之前的字符串当中出现了最大长度为k的相同前后缀,则Next[i] = k;

     如果前面不存在相同的前后缀,则Next[i] = 0;

计算(模板串ptr的)Next数组:

步骤:

1. Next[0] = -1, 代表0号之前没有相同的前后缀

2. i指向前缀的位置,j后缀。遇到相同的字符时, i++, j++,再比较下一个位置

3.  如果不相同,i = Next[i]

     reason:

      >1  如果在失配前的字符串中没有相同的前后缀,则j回到开头(-1)处,再次从头开始进行下一次比较,寻找最长的相同前后缀

      >2  如果前面存在相同的前后缀

则在前后缀当中必定各自存在相同的前后缀


存在相同的前后缀(1 2 3)(4 5 6), 此时i在3的后一位,j在7的后一位,失配

在前后缀当中各自存在相同的前后缀1与3, 5与7,  四块完全相同。所以在失配时i调到1后的位置,1与7对应(重叠,不需要再次比较),在把1后的一位 i 与7后的1位 j 开始比较,从而最大限度的减少移动次数

字符串匹配

计算完成next数组之后,我们就可以利用Next数组在字符串str中寻找字符串ptr的出现位置。匹配的代码和求Next数组的代码非常相似,因为匹配的过程和求Next数组的过程其实是一样的。只不过初始化i = 0。如果匹配,分别后移一位,比较下一个。失配时,直接将字符串向后跳转Next[j]步(此时模板串ptr的前缀与主串str的后缀相同,所以直接比较下一位的字符即可,从而减少比较次数)

上代码

#include <stdio.h>#include <string.h>int Next[1003];void CalcNext(char *s, int len) {    int  i = -1,  j = 0; //i初始化为-1,下面现+1之后在赋值    Next[0] = -1; //Next[0]初始化为-1,表示0号元素之前不存在相同的最大前缀和最大后缀    while(j < len) {//if内部的判断顺序不可调换        if (i == -1 || s[j] == s[i]) {  //i == -1代表i在起始位置,或者遇到了失配的,回到了起始位置,                                        //则(j+1)前的最大前后缀为0,即Next[j+1] = 0;                                        //如果遇到了相等的,则i,j分别向后移动一位,Next对应赋值为i,再比较下一个位置            i++;            j++;            Next[j] = i;        }        else i = Next[i];   //遇到了不相等的,则向前回溯,重新比较        printf("Next[%d] = %d\n", j, Next[j]);    }}int KMP(char *a, char *b) { //KMP函数与求Next数组很相似    int i = 0, j = 0;    int la = strlen(a), lb = strlen(b);    for( ; i < la && j < lb; ){        if (j==-1||a[i] == b[j])            j++,i++;        else            j = Next[j];    }    if(j == lb) return i-lb; //此示例返回的是包含处的起始位置下标。具体问题具体分析    return -1;}int main() {    char s[] = "abcdabcy";    char ss[] = "abcxabcdabxabcdcdabcdabcy";    CalcNext(s,strlen(s));    printf("%d\n",KMP(ss, s));    return 0;}
此做法求Next数组时,当遇到s[i] != s[j]时,Next[j] = i,这时可能退回到的i处的字符与回退之前的i也相等的话,必然也失配,需要继续向后退]。所以优化算法直接让Next[j] = Next[i];

void CalcNext(char *s, int len) {    int  i = -1,  j = 0;    Next[0] = -1;    while(j < len) {        if (i == -1 || s[j] == s[i]) {            i++;            j++;            if(s[j] != s[i])    Next[j] = i;            else    Next[j] = Next[i];        }        else {            i = Next[i];        }        printf("Next[%d] = %d\n", j, Next[j]);    }}

应用

1.获取匹配的个数

int KMP(char *a, char *b){    int alen = strlen(a), blen = strlen(b);    if(alen<blen) return 0;    int ans = 0;    if(blen == 1){        for(int i = 0; i<alen; i++)           if(a[i] == b[0]) ans++;        return ans;    }    int i = 0, j = 0;    CalcNext(b, blen);    while(i < alen){        if(j == -1 || a[i] == b[j]){            i++;            j++;        }        else    j = Next[j];        if(j == blen){            ans++;            i--;            j = Next[j-1];        }    }    return ans;}
2.判断是否存在匹配

int KMP(char *a, char *b){    int alen = strlen(a), blen = strlen(b);    if(alen<blen) return 0;    if(blen == 1){        for(int i = 0; i<alen; i++)           if(a[i] == b[0]) return 1;        return 0;    }    int i = 0, j = 0;    CalcNext(b, blen);    while(i < alen && j<blen){        if(j == -1 || a[i] == b[j]){            i++;            j++;        }        else    j = Next[j];    }    if(j == blen)   return 1;    return 0;}
3.寻找首次出现的位置


KMP算法介绍完毕。

由于本人才疏学浅,不免有错误,欢迎大家指正。



原创粉丝点击