【后缀数组系列】二、后缀数组的两种求法

来源:互联网 发布:王思聪域名绑定微博 编辑:程序博客网 时间:2024/06/04 12:55

如果直接求后缀数组的话,那就是给N个字符串进行从小到大的排序比较,需要的时间复杂度为O(n2)。复杂度太高了。由第一篇文章可知,名次数组和后缀数组互为逆运算,只要 求出名次数组,就可以在O(n)的时间内求出后缀数组。所以接下来介绍的两种方法就是先求名次数组。

倍增算法

先对原串中每个字符进行排序,之后,从该字符开始,长度扩展一倍,迭代排序求出排名,即rank 值。k 从0 开始,每次加1,当2k大于n 以后,每个字符开始的长度为2k的子字符串便相当于所有的后缀。并且这些子字符串都一定已经比较出大小,即rank 值中没有相同的值,那么此时的rank 值就是最后的结果。每一次排序都利用上次长度为2k-1的字符串的rank 值,那么长度为2k的字符串就可以用两个长度为2k-1的字符串的排名作为关键字表示,然后进行基数排序,便得出了长度为2k的字符串的rank 值。

下面实战来做一下。

仍旧以字符串“aabaaaab”为例,整个过程如下图所示。其中x、y 是表示长度为2k的字符串的两个关键字。


未完待续。。。


0 0