数据结构笔记—从头开始理解KMP算法(1)

来源:互联网 发布:淘宝首页切图 编辑:程序博客网 时间:2024/05/16 10:45

    复习数据结构时,读到“串”这一章。当初老师说不是考试内容,不讲,我也就放过了。但哪里想到大名鼎鼎的KMP算法居然就“藏”在这一章!遂从头开始,再来学习一番。

一、背景

    KMP算法是字符串匹配的常用算法之一。所谓字符匹配,就是在主串S中定位子串P的位置。这个过程也称字符串的模式匹配,并把子串P称为模式串。甫一看到这个定义我就想到了一种暴力而直接的算法:从主串S的第一个字符开始,将模式串P的第一个字符与其比较:
1>若相等,则主串S的下一个字符与模式串P的下一个字符继续比较;
2>若出现字符不相等,则从主串的下一个字符起与模式串的第一个字符重新开始比较过程。
重复过程1、2,直到S中的每一个字符都与P中的字符进行过比较。
    若模式串P与主串S的某一个连续字符序列的每一个字符都依次相等,则匹配成功。若主串S中不存在这样的连续字符序列,则匹配失败。
     如此直接粗暴的算法当然需要有个简单粗暴的名字,是的!它就叫BF(Brute Force)算法得意 。
算法实现如下:
# DEFINE MAXLENGTH 255typedef unsigned char SString[MAXLENGTH + 1];void index(SString S, SString P){    int i, j, tag;    i = j = 1;    tag = 0;    while (i <= S[0])    {        if (S[i] == P[j])        {            i++;            j++;        }        else        {            i = i-j+2;            j = 1;        }        if (j > P[0])        {            if( tag == 0) printf("string match with index: %d ", i-j+1);            else printf("%d ", i-j+1);            j = 1;            tag ++;        }    }    if (tag == 0) printf("no match.\n");}
    BF算法易于理解,若模式串P与主串S中字符相等的情况较少,那么BF算法处理的效率较高。
比如:S=‘ABCDEFGHIJKLMN’,P=‘EFG’;此种情况下,算法时间复杂度近似于O(n+m),是线性的。其中n、m分别为串S和P的长度。但是如果字符串是这样的:
                               i=5
i12345678910S=ABCDEABCDFP=ABCDF                            j=5
那么按照BF算法在第5趟比较到i=5时,S[5]<>P[5],下一趟比较如下开始:
           i=2             
i12345678910S=ABCDEABCDFP= ABCDF               j=1
    仔细观察,我们有没有充分利用前5趟比较的结果模式P本身的信息呢?
从前5趟比较的结果我们可以知道,P的前4个字符与S的前4个字符相等。而由P本身我们可以知道它前4个字符各不相等,所以P[1]=S[1],并且P[1]<>S[2],P[1]<>S[3],P[1]<>S[4]。
而按照BF算法的进行的第6趟比较是没有利用到上述信息的,导致了无意义的比较。
若利用上述信息,那么第六趟比较应该如下所示:
                       i=5             
i12345678910S=ABCDEABCDFP=    ABCDF                            j=1
    再来看一个例子,当S=‘0000000000000000000000001’,P='0001'时,匹配不成功时,都在P的最后一个字符出现不等,按照BF算法,需要将i回溯到i-3的位置上。while循环次数为(n-3)*m,可见最坏情况下,BF算法时间复杂度可达O(n*m)。

    如何利用比较过程中的比较结果和模式P本身的信息呢,D.E.Knuth与V.R.Pratt和J.H.Morris同时发现的KMP算法,给出了一种方法,原paper在此。




原创粉丝点击