求一个字符串中连续出现的次数最多的子串

来源:互联网 发布:mac文件管理 编辑:程序博客网 时间:2024/05/14 22:14

    求一个字符串中连续出现的次数最多的子串。例如字符串“abababc”,最多连续出现的为ab,连续出现三次。求一个字符串中连续出现的次数最多的子串,首先生成后缀数组。例如上面的字符串为:
abababc
bababc
ababc
babc
abc
bc
c
可以看出第一个后缀数组和第三个后缀数组的起始都为ab,第5个后缀数组也为ab。可以看出规律来,一个字符串s,如果第一次出现在后缀数组i的前面,那么如果它重复出现,下一次出现应该在第i+len(s)个后缀数组的前面。这个规律也不难看出。那么从头到尾按照这个规律搜索下不难得出结果。


基本算法描述:

    假如给出字符串abababa 
    1.首先穷举出所有的后缀子串
        substrs[0] = abababa;
        substrs[1] = bababa;
        substrs[2] = ababa;
        substrs[3] = baba;
        substrs[4] = aba;
        substrs[5] = ba;
        substrs[6] = a;
    2.然后进行循环比较
        substrs[0]比substrs[1]多了一个字母,如果说存在连续匹配的字符,那么
        substrs[0]的第1个字母要跟substrs[1]首字母匹配,同理
        substrs[0]的前2个字母要跟substrs[2]的前2个字母匹配(否则不能叫连续匹配)
        substrs[0]的前n个字母要跟substrs[n]的前n个字母匹配.


        substrs[1]比substrs[2]多了一个字母,如果说存在连续匹配的字符,那么
        substrs[1]的第1个字母要跟substrs[2]首字母匹配,同理
        substrs[1]的前2个字母要跟substrs[3]的前2个字母匹配(否则不能叫连续匹配)
        substrs[1]的前n个字母要跟substrs[n]的前n个字母匹配.  

         ...

        如果匹配的并记下匹配次数.如此可以求得连续出现次数最多的子串. 


自己的代码如下(已测试):

/*  Author: RQF DSF  Date: 05-07-14 10:10  Description: 求一个字符串中连续出现次数最多的子串.      */#include <iostream>#include <string>#include <vector>using namespace std;pair<int, string> fun(const string &str){vector<string> substrs;int maxcount = 1, count = 1;string substr;int i, len = str.length();    //生成后缀数组for(i=0; i<len; ++i)    substrs.push_back(str.substr(i, len-i));    //输出后缀数组for(i=0; i<len; ++i)   cout << substrs[i] << endl;//外面的两层for循环示例,假设后缀数组为[0]-[3],则比较顺序为0-1 0-2 0-3 , 1-2 1-3 ,2-3for(i=0; i<len; ++i){for(int j=i+1; j<len; ++j){count = 1;//(substr注:如果没有指定长度_Count或_Count+_Off超出了源字符串的长度,则子字符串将延续到源字符串的结尾)if(substrs[i].substr(0, j-i) == substrs[j].substr(0,j-i)){++count;for(int k=j+(j-i); k<len; k+=j-i){if (substrs[i].substr(0,j-i) == substrs[k].substr(0, j-i))++count;elsebreak;}if(count > maxcount){maxcount = count;substr=substrs[i].substr(0, j-i);}}}}return make_pair(maxcount, substr);}int main(){pair<int, string> rs;string str="abababababaccccc";rs = fun(str);cout << rs.second<<"是连续出现次数最多的字串,其出现次数为:"<<rs.first<<'\n';return 0;}

其中还有待优化的地方(有时要比较的子串超出后缀数组自身的长度,可以不进行比较)。

------------------------------------------------------------------------------------------------------------------------------

附Pair用法:

Pair类型概述

pair是一种模板类型,其中包含两个数据值,两个数据的类型可以不同,基本的定义如下:

pair<int, string> a;

表示a中有两个类型,第一个元素是int型的,第二个元素是string类型的,如果创建pair的时候没有对其进行初始化,则调用默认构造函数对其初始化。


pair<string, string> a("James", "Joy");

也可以像上面一样在定义的时候直接对其初始化。

 

由于pair类型的使用比较繁琐,因为如果要定义多个形同的pair类型的时候,可以时候typedef简化声明:

typedef pair<string, string> author;

author pro("May", "Lily");

author joye("James", "Joyce");


Pair对象的操作

  • 于pair类,由于它只有两个元素,分别名为first和second,因此直接使用普通的点操作符即可访问其成员

pair<string, string> a("Lily", "Poly"); 

string name;

name = pair.second;

  • 生成新的pair对象

可以使用make_pair对已存在的两个数据构造一个新的pair类型:

int a = 8;

string m = "James";

pair<int, string> newone;

newone = make_pair(a, m);

------------------------------------------------------------------------------------------------------------------------------

还有另外一种解法:

#include <iostream>using namespace std;int con_sub(char *str, char **ret);int main(){        char str[] = "abcabcabcabcabcabbbb";        char *ret = NULL;        int time = con_sub(str, &ret);        printf("%s occuers %d times\n", ret, time);        return 0;}int con_sub(char *str, char **ret){        int max_time = 0;//连续出现的最多次数        int ret_len = 0;//连续出现的字符串的长度        char *addr = NULL;//连续出现字符串的起始地址        int len = strlen(str);        char **a = (char **)malloc(sizeof(char *)*len);        //生成后缀数组        for(int i=0; i<len; i++)                a[i] = &str[i];        //重复字符串的长度范围为1到(len+1)/2        for(int i=1; i<=(len+1)/2; i++)        {                //当重复的字符串长度为i的时候,如果是连续出现的,那么第j和第j+i个后缀数组前面为重复的字符串                for(int j=0; j+i<=len-1; j+=i)                {                        int k = j;                        int temp_time = 1;                        while(k+i <= len-1 && strncmp(a[k], a[k+i], i) == 0)                        {                                temp_time++;                                k += i;                        }                        if(temp_time > max_time)                        {                                max_time = temp_time;                                ret_len = i;                                addr = a[k];                        }                }        }        *ret = new char[len+1];        strncpy(*ret, addr, ret_len);        return max_time;}


0 0
原创粉丝点击