数据结构笔记—从头开始理解KMP算法（1）

来源：互联网发布：淘宝首页切图编辑：程序博客网时间：2024/05/16 10:45

复习数据结构时，读到“串”这一章。当初老师说不是考试内容，不讲，我也就放过了。但哪里想到大名鼎鼎的KMP算法居然就“藏”在这一章！遂从头开始，再来学习一番。

一、背景

KMP算法是字符串匹配的常用算法之一。所谓字符匹配，就是在主串S中定位子串P的位置。这个过程也称字符串的模式匹配，并把子串P称为模式串。甫一看到这个定义我就想到了一种暴力而直接的算法：从主串S的第一个字符开始，将模式串P的第一个字符与其比较:

1>若相等，则主串S的下一个字符与模式串P的下一个字符继续比较；

2>若出现字符不相等，则从主串的下一个字符起与模式串的第一个字符重新开始比较过程。

重复过程1、2，直到S中的每一个字符都与P中的字符进行过比较。

若模式串P与主串S的某一个连续字符序列的每一个字符都依次相等，则匹配成功。若主串S中不存在这样的连续字符序列，则匹配失败。

如此直接粗暴的算法当然需要有个简单粗暴的名字，是的！它就叫BF（Brute Force）算法

。

算法实现如下：

# DEFINE MAXLENGTH 255typedef unsigned char SString[MAXLENGTH + 1];void index(SString S, SString P){    int i, j, tag;    i = j = 1;    tag = 0;    while (i <= S[0])    {        if (S[i] == P[j])        {            i++;            j++;        }        else        {            i = i-j+2;            j = 1;        }        if (j > P[0])        {            if( tag == 0) printf("string match with index: %d ", i-j+1);            else printf("%d ", i-j+1);            j = 1;            tag ++;        }    }    if (tag == 0) printf("no match.\n");}

BF算法易于理解，若模式串P与主串S中字符相等的情况较少，那么BF算法处理的效率较高。

比如:S=‘ABCDEFGHIJKLMN’，P=‘EFG’；此种情况下，算法时间复杂度近似于O（n+m）,是线性的。其中n、m分别为串S和P的长度。但是如果字符串是这样的：

i=5

i12345678910S=ABCDEABCDFP=ABCDF j=5
那么按照BF算法在第5趟比较到i=5时，S[5]<>P[5],下一趟比较如下开始：

i=2

i12345678910S=ABCDEABCDFP= ABCDF j=1

仔细观察，我们有没有充分利用前5趟比较的结果和模式P本身的信息呢？

从前5趟比较的结果我们可以知道，P的前4个字符与S的前4个字符相等。而由P本身我们可以知道它前4个字符各不相等,所以P[1]=S[1],并且P[1]<>S[2],P[1]<>S[3],P[1]<>S[4]。

而按照BF算法的进行的第6趟比较是没有利用到上述信息的，导致了无意义的比较。

若利用上述信息，那么第六趟比较应该如下所示：

i=5

i12345678910S=ABCDEABCDFP= ABCDF j=1

再来看一个例子，当S=‘0000000000000000000000001’,P='0001'时，匹配不成功时，都在P的最后一个字符出现不等，按照BF算法，需要将i回溯到i-3的位置上。while循环次数为（n-3）*m,可见最坏情况下，BF算法时间复杂度可达O（n*m）。

如何利用比较过程中的比较结果和模式P本身的信息呢，D.E.Knuth与V.R.Pratt和J.H.Morris同时发现的KMP算法，给出了一种方法，原paper在此。