UVa11107

来源:互联网 发布:php mysql 扩展 编辑:程序博客网 时间:2024/06/10 19:11

题目链接

简介:
给出n个字符串,找出在超过一半的字符串出现过的子串
如果有多解,按照字典序输出

分析:
首先用不同的分割符(无关符号)把所有输入字符串拼起来
跑一边SA
之后二分最长的LCP,每次只用判断长度为p的字符串是否在超过n/2的字符串中出现过
判断是否合法的方式:遍历一遍hei数组,把ta分成若干组
每当hei[i]小于p时开辟一个新段,则每一段的最初p个字符一定是相同的
只要有一段中包含了超过n/2个原串的后缀,那么p就是合法的

tip

因为我们在字符串之间加入了不同的字符
所以字符集的大小就变成了128
这就带来了很多麻烦。。。

无关字符的选择要很谨慎
(这是一个无法解决的问题。。。没有一个确定的足够大的无关字符集可以使用)
初始化不要忘了
n=1的情况特判一下

写完sa之后,一定要确认一下模板准确无误

注意在判断的时候,只有属于不同原串的后缀我们的计数器才累加
hei数组的意义的两个字符串的LCP,一定要算成两个
写代码的时候一定要搞清楚每个数组代表什么

int pd(int mid){    int i=1;    while (i<len)    {        if (flag[sa[i]]==0){i++;continue;}         memset(p,0,sizeof(p));        int cnt=0;        int minn=hei[i];        if (!p[flag[sa[i]]]) {p[flag[sa[i]]]=1;cnt++;}        if (!p[flag[sa[i-1]]]) {p[flag[sa[i-1]]]=1;cnt++;}        while (min(minn,hei[i+1])>=mid)        {            i++; minn=min(minn,hei[i]);            if (!p[flag[sa[i]]]) {p[flag[sa[i]]]=1;cnt++;}      //有哪几个不同的原串参与了计算         }        if (cnt>n/2&&minn>=mid) return 1;        i++;    }    return 0;}

按照字典序输出真的神烦
我不想写这道题了

//这里写不能AC的代码片#include<cstdio>#include<iostream>#include<cstring>#include<algorithm>using namespace std;const int N=100105;int sa[N],w1[N],w2[N],hei[N],rak[N];char s[N];int n,cc[200],len,flag[N],tt;bool p[1010];char word[101][1001];int cmp(int *y,int a,int b,int k){    int ra1=y[a];    int rb1=y[b];    int ra2=a+k>=len? -1:y[a+k];    int rb2=b+k>=len? -1:y[b+k];    return ra1==rb1&&ra2==rb2;}void make_sa(){    int m,p,*x=w1,*y=w2,i;    m=128;                               //    for (i=0;i<m;i++) cc[i]=0;    for (i=0;i<len;i++) cc[x[i]=s[i]]++;    for (i=1;i<m;i++) cc[i]+=cc[i-1];    for (i=len-1;i>=1;i--) sa[--cc[x[i]]]=i;    for (int k=1;k<=len;k<<=1)    {        p=0;        for (i=len-k;i<len;i++) y[p++]=i;        for (i=0;i<len;i++) if (sa[i]>=k) y[p++]=sa[i]-k;        for (i=0;i<m;i++) cc[i]=0;        for (i=0;i<len;i++) cc[x[i]]++;        for (i=1;i<m;i++) cc[i]+=cc[i-1];        for (i=len-1;i>=0;i--) sa[--cc[x[y[i]]]]=y[i];        swap(x,y);        x[sa[0]]=0; p=1;        for (i=1;i<len;i++)            x[sa[i]]=cmp(y,sa[i-1],sa[i],k) ? p-1:p++;        if (p>=len) break;        m=p;    }}void make_hei(){    int i,k=0;    for (int i=0;i<len;i++) rak[sa[i]]=i;    hei[0]=0;    for (int i=0;i<len;i++)    {        if (!rak[i]) continue;        int j=sa[rak[i]-1];        if (k) k--;        while (s[i+k]==s[j+k]&&i+k<len&&j+k<len) k++;        hei[rak[i]]=k;    }}int pd(int mid){    int i=1;    while (i<len)    {        if (flag[sa[i]]==0){i++;continue;}         memset(p,0,sizeof(p));        int cnt=0;        int minn=hei[i];        if (!p[flag[sa[i]]]) {p[flag[sa[i]]]=1;cnt++;}        if (!p[flag[sa[i-1]]]) {p[flag[sa[i-1]]]=1;cnt++;}        while (min(minn,hei[i+1])>=mid)        {            i++; minn=min(minn,hei[i]);            if (!p[flag[sa[i]]]) {p[flag[sa[i]]]=1;cnt++;}      //有哪几个不同的原串参与了计算         }        if (cnt>n/2&&minn>=mid) return 1;        i++;    }    return 0;}int solve(){    int L=1,ans=-1;    int R=len;    while (L<=R)    {        int mid=(L+R)/2;        if (pd(mid)) ans=mid,L=mid+1;        else R=mid-1;    }    return ans;}void print(int ans){    int i=1;    //printf("%d\n",ans);    while (i<len)    {        if (flag[sa[i]]==0){i++;continue;}             //flag[sa[i]]  sa:排第i的是哪个后缀,flag:字符i属于哪个原串         memset(p,0,sizeof(p));        int cnt=0;        int minn=hei[i];        if (!p[flag[sa[i]]]) {p[flag[sa[i]]]=1;cnt++;}        if (!p[flag[sa[i-1]]]) {p[flag[sa[i-1]]]=1;cnt++;}        while (min(minn,hei[i+1])>=ans)        {            i++; minn=min(minn,hei[i]);            if (!p[flag[sa[i]]]) {p[flag[sa[i]]]=1;cnt++;}      //有哪几个不同的原串参与了计算         }        if (cnt>n/2&&minn>=ans)         {            for (int j=sa[i];j<=sa[i]+ans-1;j++) word[++tt][j-sa[i]]=s[j];        }        i++;    }    for (int i=1;i<=tt;i++)        for (int j=i+1;j<=tt;j++)            if (strcmp(word[i],word[j])>0) swap(word[i],word[j]);       for (int i=1;i<=tt;i++) printf("%s\n",word[i]);}int main(){       int cnt=0;    while (scanf("%d",&n)!=EOF&&n)    {        if (cnt++) printf("\n");        memset(s,'\0',sizeof(s));        memset(sa,0,sizeof(sa));        memset(rak,0,sizeof(rak));        memset(hei,0,sizeof(hei));        memset(flag,0,sizeof(flag));        memset(word,'\0',sizeof(word));        tt=0;        char ch[1003];        for (int i=1;i<=n;i++)        {            scanf("%s",&ch);            int l1=strlen(ch);            strncat(s,ch,l1);            s[strlen(s)]=i;            for (int j=strlen(s)-l1-1;j<strlen(s)-1;j++) flag[j]=i;   //第j个字符属于哪个原串         }        if (n==1)        {            sort(s,s+strlen(s)-1);            for (int i=0;i<strlen(s)-1;i++) printf("%c\n",s[i]);            continue;        }        len=strlen(s);        make_sa();        make_hei();        int ans=solve();        if (ans!=-1) print(ans);        else printf("?\n");    }    return 0;}
原创粉丝点击