KMP算法

来源:互联网 发布:python 打包 编辑:程序博客网 时间:2024/05/07 04:34

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键在于:每当一次匹配过程中出现比较不等时,不需回溯i指针,而是利用已经匹配得到的“部分匹配”的结果将模式串向右“活动”尽可能远的距离后,继续进行比较。如下图所示:

这里写图片描述

next数组计算

next[j]表示当模式中第j个字符与主串中相应字符“失配”时,在模式中需重新和主串中该字符进行比较的字符的位置。

假设next[j]=k, 这说明在模式串中存在下列关系:
p0 p1 ... pk1=pjk pjk+1 ... pj1

此时next[j+1]有两种情况:

  1. pk=pj, 则有: next[j+1]=next[j]+1;
  2. pkpj, 此时,可把求next函数值的问题看成是一个模式匹配的问题。找到模式串中第next[k] 个字符和pj对齐,……,依次类推,直到匹配成功, 则next[j+1]=next[k],或者不存在任何k(0<k<j)满足: p0...pk=pjk...pj,则next[j+1]=0,表示从0号元素重新开始匹配。

C++版代码如下所示:

 vector<int> getNext ( string&t  ){    size_t n = t.length();    vector<int>next(n,-1);    int i = 0, j = -1;    while ( i < n-1 )    {        if ( j == -1 || t[i] == t[j])        {            ++i;            ++j;            next[i] = j;        }        else            j = next[j];    }    for (int i = 0; i < next.size(); ++i)        cout << next[i];    cout << endl;    return next;}

上述代码中与元素在数组中的下标索引一一对应。next[i]表示当第i号元素匹配失败时,当用t[next[i]]来匹配。因此next[0]=-1,表示无可用于匹配的元素,目标串应向右移动(即i++)。上述代码从next[1]开始计算,因为next[0]在初始化时已经设置为-1。

KMP算法代码

返回子串w在t中第一次出现的位置

int indexKMP( string& t, string&w, vector<int>& next ){    int i = 0, j = 0;    int lengthT = t.length();    int lengthW = w.length();    while ( i < lengthT && j < lengthW )    {        if ( j == -1 || t[i] == w[j] )         //继续比较后继字符        {            ++i;            ++j;        }        else            j = next[j];    }    if ( j == lengthW )        return i - lengthW;    else        return -1;}
0 0
原创粉丝点击