KMP算法(字符串匹配算法)之PHP语言实现

来源:互联网 发布:java中编写菱形原理 编辑:程序博客网 时间:2024/06/06 00:30

KMP算法(模式匹配算法):该算法的关键是求出P0···Pi的最大相同前后缀长度k(部分匹配表):

首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,

-"A"的前缀和后缀都为空集,共有元素的长度为0;

-"AB"的前缀为[A],后缀为[B],共有元素的长度为0;

-"ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

-"ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

-"ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

-"ABCDAB"的前缀为[A, AB, ABC, ABCD,ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

-"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD,CDABD, DABD, ABD, BD, D],共有元素的长度为0。


"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度6 -部分匹配值2 = 4),就可以来到第二个"AB"的位置。

下面给出计算部分匹配表和字符串匹配算法的php程序: 

php程序如下:<?php$next = array(0);$Tstring = "ababxbababcadfdsssabcdabdrwgewwrabcdabd";$Pstring = "abcdabd";printf("String is: %s\n", $Tstring);echo "<br>";printf("You find string is: %s\n", $Pstring);echo "<br>";kmp($Tstring, $Pstring, $next); // 计算部分匹配表和字符串匹配算法function kmp($Tstring, $Pstring, &$next){    $n = strlen($Tstring); // 字符串    $m = strlen($Pstring);    makeNext($Pstring,$next); // 计算模式匹配表    for ($i = 0, $q = 0; $i < $n; ++$i)    {        while($q > 0 && $Pstring[$q] != $Tstring[$i])            $q = $next[$q-1];        if ($Pstring[$q] == $Tstring[$i])        {            $q++;        }        if ($q == $m)        {            printf("Pattern occurs with shift:%d ",($i - $m + 1));            printf(" You find string is:%s\n", $Pstring);            echo "<br>";        }    }}function makeNext($Pstring, &$next){    $m = strlen($Pstring); // 此时为数组    $next[0] = 0;    for ($q = 1, $k = 0; $q < $m; ++$q)    {        while($k > 0 && $Pstring[$q] != $Pstring[$k])            $k = $next[$k-1];        if ($Pstring[$q] == $Pstring[$k])        {            $k++;        }        $next[$q] = $k;    }    printf("The next table is:\n");    for ($i = 0; $i < strlen($Pstring); ++$i) {        printf("%d ", $next[$i]);    }    echo "<br>";}?>:

输出结果:
String is: ababxbababcadfdsssabcdabdrwgewwrabcdabd 
You find string is: abcdabd 
The next table is: 0 0 0 0 1 2 0 
Pattern occurs with shift:18 You find string is:abcdabd 
Pattern occurs with shift:32 You find string is:abcdabd 


部分内容参考:http://www.cnblogs.com/c-cloud/p/3224788.html  和 http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html




0 0
原创粉丝点击