PHP实现 Manacher 最大回文子串算法

来源:互联网 发布:mui框架 js 构建dom 编辑:程序博客网 时间:2024/06/01 10:29

题目:给一个字符串,找出它的最长的回文子序列的长度。
例如,如果给定的序列是“BBABCBCAB”,则输出应该是7,“BABCBAB”是在它的最长回文子序列。

输入:aaaa1212asdfdsa1144121
输出:47

这里我们还是将其封装成函数调用

何谓回文序列

回文序列就是正向和反向完全一样的序列,比如 asdfdsaaaaa

接下来我们由浅及深,一步一步来说一下 Manacher 算法,这里我们只说 PHP 的实现

判断回文序列

通过 PHP 很容易实现,只需要判断正向反向是否相同就行了

function huiwen($str){    $str2 = implode(array_reverse(str_split($str)), "");    if ($str == $str2) {        echo "$str, yes";    } else {        echo "$str, no";    }}

接下来我们就来讲解最大回文子串如何去求

第一版代码

求回文子串,毫无疑问需要每个字符遍历一遍,分别求出来各个字符的回文长度,然后选出最长的那一个
代码如下:

function palindrome($str){       $n = strlen($str);    $pos = 0;    $max = 0;    for ($i = 0; $i < $n; $i++) {         for ($j = 0; ($i - $j >= 0) && ($i + $j < $n); $j++) {             if ($str[$i - $j] != $str[$i + $j]) {                break;            }            if ($j > $max) {                $max = $j;                $pos = $i;            }        }    }    var_dump(substr($str, $pos - $max, $max * 2 + 1));}

可以看到,这个代码是有bug的,因为回文子串可能是奇数长度,也可能是偶数长度,因为我们是以一个字符为中心来求的,所以用这种方法只能求出奇数长度的回文子串,接下来我们来改进一下

第二版改进

因为我们只能求出奇数长度的回文子串,因此我们需要把字符串改进一下

首先通过在每个字符的两边都插入一个特殊的符号,将所有可能的奇数或偶数长度的回文子串都转换成了奇数长度。比如 abba 变成 #a#b#b#a#, aba变成 #a#b#a#,这样我们再来看一下代码:

function palindrome($str){       $pos = 0;    $max = 0;    $newStr = "#" . implode(str_split($str), "#") . "#";    $n = strlen($newStr);    for ($i = 0; $i < $n; $i++) {         for ($j = 0; ($i - $j >= 0) && ($i + $j < $n); $j++) {             if ($newStr[$i - $j] != $newStr[$i + $j]) {                break;            }            if ($j > $max) {                $max = $j;                $pos = $i;            }        }    }    $r = substr($newStr, $pos - $max, $max * 2);    $res = str_replace("#", "", $r);    var_dump($res);}

这个样子我们就写好了基本的回文子串算法了,但是在这个算法中,我们用了两层 for 循环,并且需要判断当前字符的位置是否越界,效率较低,接下来我们来看 Manacher 算法

Manacher 算法实现

首先,为了进一步减少编码的复杂度,可以在字符串的开始和结尾加入另一个特殊字符,这样就不用特殊处理越界问题,这里我们在开头和结尾分别加入 @\0,如 abba 变成 @#a#b#b#a#\0

接下来,我们引入一个辅助序列 $p[] 来记录各个位置的回文长度(注意:我们这里记录的回文长度是单向的长度,比如 12321 我们记录的回文长度为 3,实际回文长度是 $p[$i] * 2 - 1
比如字符串 $s[] 与辅助序列 $p[] 的对应关系如下:

  • S # 1 # 2 # 2 # 1 #
  • P 1 2 1 2 5 2 1 2 1

最后,核心代码在于这一句:
$p[$i] = $mx > $i ? min($p[$j], $mx - $i) : 1;
通过这步操作我们可以避免很多不必要的匹配,我们结合下面的代码来理解这句操作
$mx 是最大回文序列最右侧边界的坐标,$i 是当前要计算的位置,$j$i 相对于最大回文序列中间坐标 $pos 的对称点
由于回文序列的性质,回文序列是对称的,也就是说
如果:
$mx > $i
那么
$p[$i] >= $mx > $i ? min($p[$j], $mx - $i) : 1;
可以这么理解:
如果 $mx > $i,这时 当前位置当前最大回文序列 的右半部分里面,根据回文序列的对称性,可以得出,当前位置 $i 的回文长度一定大于等于与之对称 $j 的回文长度,所以说直接从 $j 的回文长度开始计算
但是如果 $mx > $i,这时 当前位置当前最大回文序列 之外,无法判断 $mx 以后字符的对称性,因此从 1 开始

function palindrome($str){       // 最大回文序列中间坐标    $pos = 0;    // 最大回文长度    $max = 0;    // 回文序列最右边界坐标    $mx = 0;    $p = array("0" => 1, "1" => 1);    $newStr = "@#" . implode(str_split($str), "#") . "#\0";    $n = strlen($newStr);    for ($i = 2; $newStr[$i] != "\0"; $i++) {        // $i 相对于最大回文序列中间坐标 $pos 的对称点        $j = $pos - $i > 0 ? $pos - $i : 1;        $p[$i] = $mx > $i ? min($p[$j], $mx - $i) : 1;         while ($newStr[$i - $p[$i]] == $newStr[$i + $p[$i]]) {            $p[$i]++;        }        if ($p[$i] > $max) {            $max = $p[$i];            $pos = $i;            $mx = $i + $max;        }    }    $r = substr($newStr, $pos - $max + 1, $max * 2 - 1);    $res = str_replace(array("#", "@", "\0"), "", $r);    var_dump($res);}

Manacher 算法的时间复杂度为O(n),优势在于避免了奇偶数讨论的问题,简化了边界判断,还记录了当前字符串的“回文状态”,利用之前的回文状态来求当前回文状态 ,体现了动态规划的思想

1 0