AC自动机(多模式匹配)

来源:互联网 发布:djvu转pdf mac 编辑:程序博客网 时间:2024/06/07 17:52

AC自动机主要解决的问题:多模式匹配(KMP则属于单模式匹配),n个单词在m个字符的文章中,出现过多少次。

主要分三步:构建trie树、构建失败指针、寻找匹配个数

Trie树:又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。

具体参见:http://www.cppblog.com/abilitytao/archive/2009/04/21/80598.aspx

失败指针:作用于KMP的next[]类似,但存在实际不同,对于字符串s[nMax],k = next[i],并不要求s[i] = s[k],只需要前面k - 1个字母相同即可。而失败节点既要求两个节点相同,也要求前面的k - 1个节点相同。这是与next作用的区别。

需要用到的数据结构:

struct Node{Node *fail;Node *next[Max];int count;Node(){fail = NULL;memset(next, 0, sizeof(next));count = 0;}}*queue[nMax];char keyWord[mMax];char str[nMax];int ans;


算法模板:

void insert(char s[], Node *root)//构建tire树,这里没什么可解释,一次历遍即可{Node *p = root;for(int i = 0; s[i]; ++ i){int index = s[i] - 'a';if(p->next[index] == NULL) p->next[index] = new Node();p = p->next[index];}p ->count ++;}void buildFailNode(Node *root)//构建失败指针,队列实现{int front = 0,rear = 0;queue[front ++] = root;while(rear < front){Node *p = queue[rear ++];for(int i = 0; i < Max; ++ i){if(p->next[i]){Node *fa = p->fail;while(fa != NULL)//不断寻找p的失败节点直到发现fa子节点中也存在i节点{if(fa->next[i]){p->next[i]->fail = fa->next[i];break;}fa = fa->fail;}if(fa == NULL) p->next[i]->fail = root;queue[front ++] = p->next[i];}}}}void match(Node *root)//寻找一串字符中,共有多少能与关键字匹配。{Node *p = root;for(int i = 0; str[i]; ++ i){int index = str[i] - 'a';while(p->next[index] == NULL && p != root)p = p->fail;p = p->next[index];p = (p == NULL) ? root : p;//为了配合while()中p != root的应用Node *_p = p;//这里需要将p另外复制给_p,p的值不能做改动,p此时存储的是第一个匹配的节点while(_p != root && _p->count != -1)//这里使用while循环即可将str[i]位置所有匹配全部找出来{ans += _p->count;_p->count = -1;_p = _p ->fail;}}}

详细参见,图文并茂:http://www.cppblog.com/mythit/archive/2009/04/21/80633.html


原创粉丝点击