Manacher算法

来源:互联网 发布:中国网民规模季度数据 编辑:程序博客网 时间:2024/06/14 08:45

原博客出处:点击打开链接

1、预处理

Manacher算法是针对回文字符串的。“回文串”是一个正读和反读都一样的字符串,比如“level”或者“noon”等等就是回文串。Manacher充分利用了回文的性质,从而达到线性时间。

首先对字符串做一个预处理,在所有的空隙位置(包括首尾)插入同样的符号,要求这个符号是不会在原串中出现的。这样会使得所有的串都是奇数长度的。以插入#号为例:

aba  ———>  #a#b#a#abba ———>  #a#b#b#a#

插入的是同样的符号,且符号不存在于原串,因此子串的回文性不受影响,原来是回文的串,插完之后还是回文的,原来不是回文的,依然不会是回文。

我把第一位换成了‘$',#a#b#a#是从数组1下表开始存的。这里还要想一下,‘#’一共加了几个,后边有用。可以这么理解,除了第一个‘#’,后边一个字符后便跟了一个‘#’,那么一共有字符个数+1个‘#’。


2、求RL

我们把一个回文串中最左或最右位置的字符与其对称轴的距离称为回文半径。Manacher定义了一个回文半径数组RL,用RL[i]表示以第i个字符为对称轴的回文串的回文半径。我们一般对字符串从左往右处理,因此这里定义RL[i]为第i个字符为对称轴的回文串的最右一个字符与字符i的距离。对于上面插入分隔符之后的两个串,可以得到RL数组:

char:    # a # b # a # RL :    1 2 1 4 1 2 1RL-1:    0 1 0 3 0 1 0  i :    0 1 2 3 4 5 6char:    # a # b # b # a # RL :    1 2 1 2 5 2 1 2 1RL-1:    0 1 0 1 4 1 0 1 0  i :    0 1 2 3 4 5 6 7 8

上面我们还求了一下RL[i]-1。通过观察可以发现,RL[i]-1的值,正是在原本那个没有插入过分隔符的串中,以位置i为对称轴的最长回文串的长度。那么只要我们求出了RL数组,就能得到最长回文子串的长度。


我个人的理解为这个算法核心就是RL数组,我来推一下为什么RL[i]-1就是回文串的长度。

RL数组记录的本来就是回文半径,那么我设不予处理情况下回文串长度为x,那么预处理后的串加了x+1个‘#,现在处理后的串长度为x+x+1=RL[i]*2-1,解出来方程x=RL[i]-1。

我们再引入一个辅助变量MaxRight,表示当前访问到的所有回文子串,所能触及的最右一个字符的位置。另外还要记录下MaxRight对应的回文串的对称轴所在的位置,记为pos,它们的位置关系如下。


我们从左往右地访问字符串来求RL,假设当前访问到的位置为i,即要求RL[i],在对应上图,i必然是在po右边的(obviously)。但我们更关注的是,i是在MaxRight的左边还是右边。我们分情况来讨论。

1)当iMaxRight的左边

情况1)可以用下图来刻画:


我们知道,图中两个红色块之间(包括红色块)的串是回文的;并且以i为对称轴的回文串,是与红色块间的回文串有所重叠的。我们找到i关于pos的对称位置j,这个j对应的RL[j]我们是已经算过的。根据回文串的对称性,以i为对称轴的回文串和以j为对称轴的回文串,有一部分是相同的。这里又有两种细分的情况。

1、以j为对称轴的回文串比较短,短到像下图这样。


这时我们知道RL[i]至少不会小于RL[j],并且已经知道了部分的以i为中心的回文串,于是可以令RL[i]=RL[j]。但是以i为对称轴的回文串可能实际上更长,因此我们试着以i为对称轴,继续往左右两边扩展,直到左右两边字符不同,或者到达边界。

2、以j为对称轴的回文串很长,这么长:


呃,这里说一下,这个图蓝线部分有点错掉了,左边的蓝线应该在pos这。

这时,我们只能确定,两条蓝线之间的部分(即不超过MaxRight的部分)是回文的,于是从这个长度开始,尝试以i为中心向左右两边扩展,,直到左右两边字符不同,或者到达边界。

不论以上哪种情况,之后都要尝试更新MaxRightpos,因为有可能得到更大的MaxRight。

具体操作如下:

step 1: 令RL[i]=min(RL[2*pos-i], MaxRight-i)step 2: 以i为中心扩展回文串,直到左右两边字符不同,或者到达边界。step 3: 更新MaxRight和pos

2)当iMaxRight的右边


遇到这种情况,说明以i为对称轴的回文串还没有任何一个部分被访问过,于是只能从i的左右两边开始尝试扩展了,当左右两边字符不同,或者到达字符串边界时停止。然后更新MaxRightpos

 复杂度分析

空间复杂度:插入分隔符形成新串,占用了线性的空间大小;RL数组也占用线性大小的空间,因此空间复杂度是线性的。
时间复杂度:尽管代码里面有两层循环,通过amortized analysis我们可以得出,Manacher的时间复杂度是线性的。由于内层的循环只对尚未匹配的部分进行,因此对于每一个字符而言,只会进行一次,因此时间复杂度是O(n)

代码:

预处理:

memset(str2,'\0',sizeof(str2));//先把str2清零,str2用来记录        int len=strlen(str1);        str2[0] = '$';//str2[0]当作'$'        int n=1;        for(int i=0; i<len; i++)        {            str2[n++]='#';            str2[n++]=str1[i];        }        str2[n++]='#';


mamacher:

int id = 0, mx = 1;        int ans = 0;        for(int i = 1; i <n; i++)        {            if(mx > i)            {                dis[i] = (dis[id * 2 - i] < (mx - i) ? dis[2 * id - i] : (mx - i));            }            else dis[i] = 1;            while(str2[i - dis[i]] == str2[i + dis[i]]) dis[i]++;//两边找            if(i + dis[i] > mx)//更新mx和id            {                mx = i + dis[i];                id = i;            }            ans = max(ans,dis[i]);        }



原创粉丝点击