KMP算法实现

来源:互联网 发布:什么软件有淘宝优惠卷 编辑:程序博客网 时间:2024/06/05 11:40

在KMP算法原理中,我们简要分析了KMP算法的原理,在直观上了解了算法流程,并分析了KMP算法之于暴力算法的效率提升之处。这里我们就从暴力算法出发,根据算法基本流程一步步实现典型的KMP算法。


文中出现的名词:

模式串(pattern,P),长度为m,当前字符指针i

文本串(text,T),长度为n,当前字符指针j


1.暴力算法(BF)

暴力算法的是最直接的匹配算法,分别给模式串P和文本串T两个指针j和i,从文本串第一个字符开始匹配模式串,直到匹配成功或者指针i越界为止。

int match(char* P, char* T){    int n = (int)strlen(T), i = 0;    //文本串长度n,当前接受比较字符位置i    int m = (int)strlen(P), j = 0;    //模式串长度m,当前接受比较字符位置j    while (j < m && i < n)  //自左向右逐个比较字符    {        if (T[i] == P[j])   //若当前字符匹配成功,则跳到下一个字符        {            i++;            j++;        }        else                //若当前字符匹配失败,则文本串回退、模式串复位        {            i -= j - 1;            j = 0;        }    }    return i - j;   //如果匹配成功,i-j为P相对于T的对齐位置;如果匹配失败,i-j必然>n-m}

暴力算法的正确性是显而易见的,但在最坏情况下时间复杂度为文本串长度与模式串长度乘积,稍大规模的应用环境就难以接受了。


2.KMP算法

暴力算法的低效率在于存在大量的重复匹配。每轮匹配失败后,文本串和模式串的指针都要回退并从头开始下一轮比较。实际上,上一轮匹配的信息我们已经掌握,如果能利用这些信息就能提高算法的效率。通过利用以往成功比较所获得的信息,不仅可以避免文本串指针回退,并且可以使模式串尽可能大跨度右移。KMP算法的核心思想就是将信息转化为预知。

考虑一般情况,某轮比较匹配失败在 P[j] != T[i],则说明P[0, j) 和 T[i-j, i)已经完全匹配成功了,而下一轮比较中应与T[i]对齐的P[j]完全由子串P[0, j)决定。上文中每次匹配所获得的信息正是来自于子串P[0, j)。因此我们为模式串的每个字符构造一个查询表(next table),即前缀表(prefix table),就能将信息转化为对下次匹配起始位置的预知。具体原理请见KMP算法原理。

int* buildNext(char* P) //构造模式串P的next表{    size_t m = strlen(P), j = 0;    int* N = new int[m];//next表    int t = N[0] = -1;//模式串指针    while (j < m - 1)    {        if (0 > t || P[j] == P[t])//匹配        {            j++; t++;            N[j] = t;        }        else //匹配失败            t = N[t];    }}int match(char* P, char* T){    int* next = buildNext(P);         //构造next表    int n = (int)strlen(T), i = 0;    //文本串长度n,文本串指针i    int m = (int)strlen(P), j = 0;    //模式串长度m,文本串指针j    while (j < m && i < n)            //自左向右逐个比较字符    {        if(0 > j || T[i] == P[j])     //若匹配成功,或P已经移出最左侧(即j==-1),(注:两个判断顺序不能交换)        {            i++; j++;                 //移到下一字符        }        else            j = next[j];              //模式串根据next表右移,而文本串不必回退    }    delete []next;  //释放next表    return i - j;   //如果匹配成功,i-j为P相对于T的对齐位置;如果匹配失败,i-j必然>n-m}


原创粉丝点击