通俗讲解KMP算法和next数组求解

来源:互联网 发布:软件生命周期 编辑:程序博客网 时间:2024/05/16 00:40
     在讲解next数组之前,得先知道KMP算法是做什么用的
     1.KMP算法的作用:
          假设有一个字符串S="abcabcabcdefgabc",然后有一个模式字符串P="abcabcdef",现在要在字符串S中找到模式字符串在S中的位置,此时就可以采用KMP算法快速的找到该模式字符串的位置。
     2.KMP算法原理
          既然KMP算法是用来找模式字符串的位置,那KMP算法是如何去定位模式字符串P的呢?
          通常我们要从S中找到P,最简单的方法就是遍历了,就是从S的第一位开始与P的第一位开始挨个比较,如下图所示:
          S:     a   b   c   a   b   c   a   b   c   d   e   f   g   a   b  c
          P:     a   b   c   a   b   c   d   e   f
          如上图所示,当P匹配到第7位'd'时发现S的第7位与P的第7位不相等,通过遍历的方法P就得从S的第2位开始重新进行匹配,如下图所示:
          S:     a   b   c   a   b   c   a   b   c   d   e   f   g   a   b  c
          P:          a   b   c   a   b   c   d   e   f
          但是,有没有发现,P字符串其实可以直接移动到S的第四位再重新进行比较,如下图所示:
          S:     a   b   c   a   b   c   a   b   c   d   e   f   g   a   b  c
          P:                   a   b   c   a   b   c   d   e   f
          KMP算法就可以实现上述过程,提高字符串匹配效率。其中,实现跳转就是根据next数组的值来进行的。
      3.next数组的定义
          next数组也叫前缀数组,每一个字串有一个固定的next数组,它记录着字符串匹配过程中失配情况下可以向前多跳几个字符,当然它描述的也是字串的对称程度,对称程度越高,值越大。
          简单的讲,next数组就是用来找最长的公共前后缀长度。
          在计算next数组之前,得先弄懂什么是前缀和后缀呢?
          前缀:对于abcabc的前缀为:a  ab   abc  abca   abcab,即"前缀"指除了最后一个字符以外,一个字符串的全部头部组合;
          后缀:对于abcabc的后缀为:bcabc  cabc  abc  bc  c,即"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。
      4.next数组的计算
               一般规定next[1]=0,next[2]=1,数组下标从1开始,
               对于next[7],要计算abcabcabcabc表示失配字符d的前面已经匹配的字符串的最长公共前后缀长度,即为abc长度为3,所以next[7]=3.
               其他的计算方法都一样,就不多赘述了。
原创粉丝点击