后缀树应用之寻找重复出现过的最长子串

来源:互联网 发布:网络歌手 十三电音 编辑:程序博客网 时间:2024/05/17 22:06

后缀数组应用之寻找重复出现过的最长子串

给定一个字符串s,假设该字符串内只包含数字和字母,试找出其重复出现的最长子串。

Sample Input:
strstr
thisisastringwhichisisis

Sample Output:
str
isis

《编程珠玑》最后一章有提到这个例子,书中使用了后缀数组这一技巧。后缀数组其实可以看作一个由字符串s倒数i个字符组成的子串的集合,其中0<i<s.length(),例如 字符串strstr的后缀数组为:
{r,tr,str,rstr,trstr,strstr}
得到这个集合之后,我们可以发现,最长重复子串其实变成了求该集合中任意两个元素的最长公共前缀的问题。因为在这个集合中,原字符串中的每个字符都会出现在集合中元素的首位,而如果有子串重复出现,那么该子串肯定会出现在某两个或者多个元素的公共前缀上。
接下来问题就变成了如何去寻找最长公共前缀,除了暴力搜素之外,我们可以考虑先对该集合中的元素按照字典序进行排序,然后依次比较相邻的元素,找出其中的最长公共前缀即可。

代码如下:
首先构造一个后缀数组:

vector<string> suffixtree(string s){    vector<string> vs(s.length());//用vs来保存这些元素    for(int i = 0;i<s.length();i++){        //依次将后i个元素放入vs中        vs[i] = s.substr(s.length()-i-1,i+1);    }    //排序并返回    sort(vs.begin(),vs.end());    return vs;}

得到这个后缀数组之后,我们需要寻找其最长公共前缀,代码如下:

string longcom(vector<string> vs){    int maxLen = 0;    string ret;    for(int i = 0;i<vs.size()-1;i++){        string cur = vs[i];        string suf = vs[i+1];        int tlen = 0;        //循环条件是尚未到达任意一个的末尾        for(int j = 0;j<min(cur.length(),suf.length());j++){            //如果发现有不匹配,立刻退出循环,            //如果是第一个元素就不匹配,那么没有必要匹配下去            //如果是后面的元素不匹配,那么在上一次循环中已经设置了maxLen            if(cur[j]!=suf[j]){                tlen = 0;                break;            }            else if(cur[j]==suf[j]){                tlen++;            }            //更新maxLen            if(maxLen<tlen){                maxLen =tlen;                ret = suf.substr(0,maxLen);                //cout<<ret<<endl;            }        }    }    return ret;}

那么我们可以知道,该返回值ret就是该字符串的最长重复子串了。

0 0