Trie树:应用于统计和排序
来源:互联网 发布:sony 电视 知乎 编辑:程序博客网 时间:2024/06/04 22:23
1. 什么是trie树
1.Trie树 (特例结构树)
trie树把要查找的关键词看作一个字符序列。并根据构成关键词字符的先后顺序构造用于检索的树结构。
在trie树上进行检索类似于查阅英语词典。
再举一个例子。给出一组单词,inn, int, at, age, adv, ant, 我们可以得到下面的Trie:
可以看出:
- 每条边对应一个字母。
- 每个节点对应一项前缀。叶节点对应最长前缀,即单词本身。
- 单词inn与单词int有共同的前缀“in”, 因此他们共享左边的一条分支,root->i->in。同理,ate, age, adv, 和ant共享前缀"a",所以他们共享从根节点到节点"a"的边。
查询操纵非常简单。比如要查找int,顺着路径i -> in -> int就找到了。
2. trie树的实现
1.插入过程
对于一个单词,从根开始,沿着单词的各个字母所对应的树中的节点分支向下走,直到单词遍历完,将最后的节点标记为红色,表示该单词已插入trie树。
2. 查找过程
其方法为:
(1) 从根结点开始一次搜索;
(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
class TrieNode {public: // Initialize your data structure here. TrieNode(bool flag = false) { memset(nexts,0,sizeof(nexts)); is_word = flag; } TrieNode *nexts[26]; // string word; bool is_word;};class Trie {public: Trie() { root = new TrieNode(); } // Inserts a word into the trie. void insert(string word) { TrieNode *work = root; for(int i = 0; i < word.size(); i++){ int c = 0; if(word[i] >= 'A' && word[i] <= 'Z'){ c = word[i] - 'A'; }else if(word[i] >= 'a' && word[i] <= 'z'){ c = word[i] - 'a'; }else{ return; } if(work->nexts[c] == NULL){ work->nexts[c] = new TrieNode(); } work = work->nexts[c]; //if(work == NULL) work = new TrieNode(); } work->is_word = true; } // Returns if the word is in the trie. bool search(string word) { TrieNode *work = find(word); if(work != NULL && work->is_word) return true; else return false; } // Returns if there is any word in the trie // that starts with the given prefix. bool startsWith(string prefix) { TrieNode *work = find(prefix); return work != NULL; } TrieNode *find(string word){ int len = word.size(); int index = 0; TrieNode *work = root; while(work && index < len){ int c = 0; if(word[index] >= 'A' && word[index] <= 'Z'){ c = word[index] - 'A'; }else if(word[index] >= 'a' && word[index] <= 'z'){ c = word[index] - 'a'; } index++; work = work->nexts[c]; } return work; }private: TrieNode* root;};// Your Trie object will be instantiated and called as such:// Trie trie;// trie.insert("somestring");// trie.search("key");
3. 查找分析
若关键字长度最大是5,则利用trie树,利用5次比较可以从26^5=11881376个可能的关键字中检索出指定的关键字。而利用二叉查找树至少要进行次比较。
3. trie树的应用:
1. 字符串检索,词频统计,搜索引擎的热门查询
事先将已知的一些字符串(字典)的有关信息保存到trie树里,查找另外一些未知字符串是否出现过或者出现频率。
举例:
1)有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
2)给出N 个单词组成的熟词表,以及一篇全用小写英文书写的文章,请你按最早出现的顺序写出所有不在熟词表中的生词。
3)给出一个词典,其中的单词为不良单词。单词均为小写字母。再给出一段文本,文本的每一行也由小写字母构成。判断文本中是否含有任何不良单词。例如,若rob是不良单词,那么文本problem含有不良单词。
4)1000万字符串,其中有些是重复的,需要把重复的全部去掉,保留没有重复的字符串
5)寻找热门查询:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复读比较高,虽然总数是1千万,但是如果去除重复和,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。
2. 字符串最长公共前缀
Trie树利用多个字符串的公共前缀来节省存储空间,反之,当我们把大量字符串存储到一棵trie树上时,我们可以快速得到某些字符串的公共前缀。举例:
1) 给出N 个小写英文字母串,以及Q 个询问,即询问某两个串的最长公共前缀的长度是多少. 解决方案:
首先对所有的串建立其对应的字母树。此时发现,对于两个串的最长公共前缀的长度即它们所在结点的公共祖先个数,于是,问题就转化为了离线 (Offline)的最近公共祖先(Least Common Ancestor,简称LCA)问题。
而最近公共祖先问题同样是一个经典问题,可以用下面几种方法:
1. 利用并查集(Disjoint Set),可以采用采用经典的Tarjan 算法;
2. 求出字母树的欧拉序列(Euler Sequence )后,就可以转为经典的最小值查询(Range Minimum Query,简称RMQ)问题了;
3. 排序
Trie树是一棵多叉树,只要先序遍历整棵树,输出相应的字符串便是按字典序排序的结果。
举例: 给你N 个互不相同的仅由一个单词构成的英文名,让你将它们按字典序从小到大排序输出。
4 作为其他数据结构和算法的辅助结构
如后缀树,AC自动机等。
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树:应用于统计和排序
- Trie树(字典树):应用于统计和排序
- Trie树:应用于统计和排序 && 倒排索引
- 数据结构-4-Trie树:应用于统计、排序与搜索 原理详解
- Trie树:统计词频、排序、查找
- POJ---3437-Tree Grafting
- warning C4996: 'sprintf': This function or variable may be unsafe.
- 归并排序原理及实现
- 应去掉中医中的”玄“
- 学籍管理系统选择学校窗口缺陷
- Trie树:应用于统计和排序
- java软件工程师的必备技能
- C#流程控制语句
- Android 之自定义控件样式在drawable文件夹下的XML实现
- 【bzoj2662】【BeiJing wc2012】冻结【最短路】
- 软件测试常用术语
- 匿名类与内部类
- AndroidStudio的 cant resolve symbol R (找不到R文件)问题的解决办法
- 给btn设置边框