POJ 3691 DNA repair AC自动机 + dp

来源:互联网 发布:专业日语翻译软件 编辑:程序博客网 时间:2024/05/17 22:45

传送门:POJ3691

题意:给定一个原字符串S和n个禁止模式串p1,p2...pn,请修改字符串S,使得其中不包含任何禁止模式串,只能将S中的字符修改为其他字符而不能增加或删除,如果怎么修改都不行,输出-1,否则输出最少修改次数。

思路:挑战程序设计P370例题,但是白书上不是用ac自动机做的,而是暴力预处理,我看网上dalao都是ac自动机或者说Trie图预处理,就学着写了一发,这也是第一道ac自动机的题目。


下面是我自己觉得一个较好的对fail指针和构建ac自动机过程的解释:

首先,讲一下失败指针的含义,因为之前提到,一个模式串的某个字符匹配失败的时候,就跳到它的失败指针上继续匹配,重复上述操作,直到这个字符匹配成功,所以失败指针一定满足一个性质,它指向的一定是某个串的前缀,并且这个前缀是当前结点所在前缀的后缀,而且一定是最长后缀。仔细理解一下这句话,首先,一定是某个串的前缀,这是显然的,因为trie树本来就是前缀树,它的任意一个结点都是某个模式串的前缀;然后再来看后面一句话,为了让当前字符能够找到匹配,那么当前结点的某个后缀必须要和某个模式串的前缀相匹配,这个性质就和KMP的next数组不谋而合了。

       然后,就是来看如何利用BFS求出所有结点的失败指针了。

 

       1) 对于根结点root的失败指针,我们将它直接指向NULL,对于根结点下所有的子结点,失败指针一定是指向root的,因为当一个字符都不能匹配的时候,自然也就不存在更短的能够与之匹配的前缀了;

       2) 将求完失败指针的结点插入队列中;

       3) 每次弹出一个结点now,询问它的每个字符对应的子结点,为了阐述方便,我们将now的i号子结点记为now->next[i]:

              a) 如果now->next[i]为NULL,那么将now->next[i]指向now的失败指针的i号子结点, 即 now->next[i] = now->fail->next[i];

              b) 如果now->next[i]不等于NULL,则需要构造now->next[i]的失败指针,由于a)的操作,我们知道now的失败指针一定存在一个i号子结点,即now->fail->next[i],那么我们将now->next[i]的失败指针指向它,即now->next[i]->fail = now->fail->next[i];

       4) 重复2)的操作直到队列为空;

转载自:点击打开链接


再回过头来说这个题,ac自动机构建过程中需要注意的一点就是禁止串标记的传递性,根据fail指针特点,若某个结点fail指针指向的是禁止结点,那么当前结点一定也是禁止结点,这一点不明白的可以画画图模拟一下,然后就是dp过程,dp[i][j] := 处理到主串第i个结点,对应于Trie图中的j结点所需要的最少操作。状态就根据Trie图进行转移就好了。

代码:

#include<iostream>#include<stdio.h>#include<string.h>#include<queue>#include<algorithm>#define ll long long#define pb push_back#define fi first#define se second#define pi acos(-1)#define inf 0x3f3f3f3f#define lson l,mid,rt<<1#define rson mid+1,r,rt<<1|1#define rep(i,x,n) for(int i=x;i<n;i++)#define per(i,n,x) for(int i=n;i>=x;i--)#define next nxtusing namespace std;typedef pair<int,int>P;const int MAXN=1010;int gcd(int a,int b){return b?gcd(b,a%b):a;}int h[300];struct Trie{int next[MAXN][4], fail[MAXN];bool end[MAXN];int root, L;void insert(char buf[]){int len = strlen(buf), now = 0;for(int i = 0; i < len; i++){if(next[now][h[buf[i]]] == -1) next[now][h[buf[i]]] = ++L;now = next[now][h[buf[i]]];}end[now] = 1;}void init(){root = L = 0;memset(next, -1, sizeof(next));memset(fail, 0, sizeof(fail));memset(end, 0, sizeof(end)); }void build(){queue<int>q;fail[root] = root;for(int i = 0; i < 4; i++)if(next[root][i] == -1)next[root][i] = root;else{fail[next[root][i]] = root;q.push(next[root][i]);}while(!q.empty()){int now = q.front(); q.pop();for(int i = 0; i < 4; i++){int tmp = next[fail[now]][i];if(next[now][i] == -1)next[now][i] = tmp;else{fail[next[now][i]] = tmp;end[next[now][i]] |= end[tmp];q.push(next[now][i]);}}}}};int dp[1100][1100];int main(){h['A'] = 0;h['G'] = 1;h['C'] = 2;h['T'] = 3;Trie ac;int n, kase = 1;char s[MAXN];while(cin >> n, n){ac.init();for(int i = 0; i < n; i++){scanf("%s", s);ac.insert(s);}ac.build();scanf("%s", s);memset(dp, inf, sizeof(dp));int len = strlen(s);dp[0][0] = 0;for(int i = 1; i <= len; i++){for(int j = 0; j <= ac.L; j++){if(dp[i - 1][j] == inf) continue;for(int k = 0; k < 4; k++){int tmp = ac.next[j][k];if(!ac.end[tmp])dp[i][tmp] = min(dp[i][tmp], dp[i - 1][j] + (h[s[i - 1]] == k ? 0 : 1));}//注意问号表达式的优先级,一开始没加括号,白白debug半天}}int ans = *min_element(dp[len], dp[len] + ac.L + 1);if(ans == inf) ans = -1;printf("Case %d: %d\n", kase++, ans);} return 0;}



原创粉丝点击