字典树详解

来源:互联网 发布:什么是数据存储 编辑:程序博客网 时间:2024/05/22 01:35

字典树

字典树又称为单词查找树,Trie树,是一种树形结构,是哈希树的一种变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

如图所示:


性质

1、根节点不包含字符,除根节点外的每个节点都只包含一个字符;

2、从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;

3、每个节点的所有子节点包含的字符都不相同。

基本操作

其基本操作有:查找、插入和删除。

实现方法

搜索字典项目的方法为:

1、从根节点开始一次搜索;

2、取的要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该字树继续进行检索;

3、在相应的子树上,取得要查找关键词的第二个字母,进一步选择对应的子树进行检索。

4、迭代过程……

5、在某个节点处,关键词的所有字母已经被取出,则读取附在该节点上的信息,即完成查找。

应用

串的快速检索
给出N个单词组成的熟词表,以及一篇全用小写英文书写的文章,请你按最早出现的顺序写出所有不在熟词表中的生词。
在这道题中,我们可以用数组枚举,用哈希,用字典树,先把熟词建一棵树,然后读入文章进行比较,这种方法效率是比较高的。
“串”排序
给定N个互不相同的仅由一个单词构成的英文名,让你将他们按字典序从小到大输出
用字典树进行排序,采用数组的方式创建字典树,这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可。
最长公共前缀
对所有串建立字典树,对于两个串的最长公共前缀的长度即他们所在的结点的公共祖先个数,于是,问题就转化为当时公共祖先问题。

代码实现

我们用一个简单的例子来说明。

题目链接

题目描述

给你n个单词,接着再给你m个单词,让你查看这m个单词是否在那n个单词中出现过。

代码部分

#include <iostream>#include <stdio.h>#include <string.h>#include <algorithm>#include <vector>using namespace std;const int en=26;const int maxn=1e6;struct Trie{    int cnt;    Trie *nex[en];}T[maxn];int top;int idx(char c){    return c-'a';}Trie * CreatTrie(){    Trie *p=& T[top++];    p->cnt=0;    for(int i=0; i<en; i++)    {        p->nex[i]=NULL;    }    return p;}Trie * Init(){    top=0;    return CreatTrie();}void Insert(Trie *root,string s){    Trie *p=root;    for(int i=0; i<s.size(); i++)    {        int temp=idx(s[i]);        if(p->nex[temp]==NULL)            p->nex[temp]=CreatTrie();        p=p->nex[temp];    }    p->cnt++;}int Search(Trie *root,string s){    Trie *p=root;    for(int i=0; i<s.size(); i++)    {        int temp=idx(s[i]);        if(p->nex[temp]==NULL)            return 0;        p=p->nex[temp];    }    return p->cnt;}int main(){    int n,m;    string s;    while(cin>>n>>m&&n&&m)    {        Trie *root=Init();        for(int i=1; i<=n; i++)            cin>>s,Insert(root,s);        for(int i=1; i<=m; i++)        {            cin>>s,puts(Search(root,s)?"Yes":"No");        }    }    return 0;}
原创粉丝点击