POJ 2778 DNA Sequence(AC自动机+矩阵幂DP)

来源:互联网 发布:天津哪个淘宝城比较好 编辑:程序博客网 时间:2024/05/20 11:22

POJ 2778 DNA Sequence(AC自动机+矩阵幂DP)

http://poj.org/problem?id=2778

题意:

        所有串只由A,C,T,G字符构成。给你m个模板串,然后给你一个n,问你长为n的由ACTG字符构成的所有字符串中有多少个是不包含任意一个模板串的?其中n很大。

分析:本题类似于UVA11468:

http://blog.csdn.net/qq_36782366/article/details/77752639

        首先用模板建立AC自动机(match数组的,ch[i][j]的连接与普通ac自动模板不同,他连得是失配数组指向的下一个,这个需要理解一下),然后从0号节点开始在AC自动机里面走,不可以走到match=1的节点上,问你当走n步的时候有多少种行走方式?(仔细想想是不是这个问题)

        令f[i][j]=x表示当前在i节点,行走了j步(但是不经过单词节点)共有x种行走方式。

        那么有递推公式:

        f[i][n] = a0*f[0][n-1]+a1*f[1][n-1]+a2*f[2][n-1]+…+am*f[m-1][n-1]

        也就是说当走到第n-1步的时候在0,1,2…m-1号点的方法总数可以为走n步到i号点做出贡献,这个贡献度就看从它们上一个节点有多少合法后继字母能走到i号点上了。

        建立AC自动机,对所有的非后缀单词节点求它的合法后继,如果能从i走到j,那么矩阵mat[j][i]++。

        下面是个简单的实例:

        举个例子:{AG, CG} ,首先构造 AC 自动机:


        那么转换方程为:

        上面的方程没有写出f3(n)和f4(n)来,不过程序中的矩阵是包括所有节点的.而且f3(n)=f4(n)=0,因为没有节点能到达3和4节点(3和4是非法节点,我们只算节点到达合法节点).

转换矩阵为:

当n=3时,走3步,所以要求上面矩阵的3次幂:

大致思想就在上面了,下面是代码.

本博客转自:点击打开链接

也可以参考博客,他的图比较棒:点击打开链接

#include<cstdio>#include<cstring>#include<queue>using namespace std;const int MOD = 100000;const int maxnode=100+10;const int sigma_size=4;struct AC_Automata{    int ch[maxnode][sigma_size];    int match[maxnode];//表示当前单词节点的后缀是否存在单词节点    int f[maxnode];    int sz;    int mp[128];    void init()    {        mp['A']=0,mp['C']=1,mp['T']=2,mp['G']=3;//初始化        sz=1;        match[0]=f[0]=0;        memset(ch[0],0,sizeof(ch[0]));    }    void insert(char *s)    {        int n=strlen(s),u=0;        for(int i=0;i<n;i++)        {            int id=mp[s[i]];            if(ch[u][id]==0)            {                ch[u][id]=sz;                memset(ch[sz],0,sizeof(ch[sz]));                match[sz++]=0;            }            u=ch[u][id];        }        match[u]=1;    }    void getFail()    {        queue<int> q;        for(int i=0;i<sigma_size;i++)        {            int u=ch[0][i];            if(u)            {                f[u]=0;                q.push(u);            }        }        while(!q.empty())        {            int r=q.front();q.pop();            for(int i=0;i<sigma_size;i++)            {                int u=ch[r][i];                if(!u)                {                    ch[r][i]=ch[f[r]][i];                    continue;                }                q.push(u);                int v=f[r];                while(v && ch[v][i]==0) v=f[v];                f[u]=ch[v][i];                match[u] |= match[f[u]];            }        }    }};AC_Automata ac;long long z[maxnode][maxnode];long long mat[maxnode][maxnode];long long ans[maxnode][maxnode];void mutiply(long long x[maxnode][maxnode],long long y[maxnode][maxnode]){    for(int i=0;i<ac.sz;i++)    {        for(int j=0;j<ac.sz;j++)        {            z[i][j]=0;            for(int k=0;k<ac.sz;k++)                z[i][j] +=x[i][k]*y[k][j];            z[i][j] %=MOD;        }    }    for(int i=0;i<ac.sz;i++)        for(int j=0;j<ac.sz;j++)            y[i][j]=z[i][j];}int main(){    int m,n;    while(scanf("%d%d",&m,&n)==2)    {        ac.init();        memset(mat,0,sizeof(mat));        memset(ans,0,sizeof(ans));        for(int i=0;i<m;i++)        {            char str[20];            scanf("%s",str);            ac.insert(str);        }        ac.getFail();        for(int i=0;i<ac.sz;i++)            if(ac.match[i]==0)//非后缀单词                for(int j=0;j<4;j++)                    if(ac.match[ac.ch[i][j]]==0)//后继也不是后缀单词                        mat[ac.ch[i][j]][i]++;        for(int i=0;i<ac.sz;i++) ans[i][i]=1;//ans就是E单位矩阵        while(n)//这里没乘列向量(1,0,0...,0),因为最后求res的时候只算第一列的        {            if(n&1) mutiply(mat,ans);            mutiply(mat,mat);            n>>=1;        }        long long res=0;        for(int i=0;i<ac.sz;i++) res += ans[i][0];//只算第一列的        printf("%I64d\n",res%MOD);    }    return 0;}


原创粉丝点击