单词查找树(数据结构)
来源:互联网 发布:nf5270m4安装centos 编辑:程序博客网 时间:2024/06/08 05:23
【例3-2】单词查找树
【问题描述】
在进行文法分析的时候,通常需要检测一个单词是否在我们的单词列表里。为了提高查找和定位的速度,通常都画出与单词列表所对应的单词查找树,其特点如下:
1.根结点不包含字母,除根结点外每一个结点都仅包含一个大写英文字母;
2.从根结点到某一结点,路径上经过的字母依次连起来所构成的字母序列,称为该结点对应的单词。单词列表中的每个单词,都是该单词查找树某个结点所对应的单词;
3.在满足上述条件下,该单词查找树的结点数最少。
4.例如图左边的单词列表就对应于右边的单词查找树。注意,对一个确定的单词列表,请统计对应的单词查找树的结点数(包含根结点)。
【问题输入】
输入文件名为word.in,该文件为一个单词列表,每一行仅包含一个单词和一个换行/回车符。每个单词仅由大写的英文字母组成,长度不超过63个字母 。文件总长度不超过32K,至少有一行数据。
【问题输出】
输出文件名为word.out,该文件中仅包含一个整数,该整数为单词列表对应的单词查找树的结点数。【样例输入】
A
AN
ASP
AS
ASC
ASCII
BAS
BASIC
【样例输出】
13
【算法分析】
首先要对建树的过程有一个了解。对于当前被处理的单词和当前树:在根结点的子结点中找单词的第一位字母,若存在则进而在该结点的子结点中寻找第二位……如此下去直到单词结束,即不需要在该树中添加结点;或单词的第n位不能被找到,即将单词的第n位及其后的字母依次加入单词查找树中去。但,本问题只是问你结点总数,而非建树方案,且有32K文件,所以应该考虑能不能不通过建树就直接算出结点数?为了说明问题的本质,我们给出一个定义:一个单词相对于另一个单词的差:设单词1的长度为L,且与单词2从第N位开始不一致,则说单词1相对于单词2的差为L-N+1,这是描述单词相似程度的量。可见,将一个单词加入单词树的时候,须加入的结点数等于该单词树中已有单词的差的最小值。
单词的字典顺序排列后的序列则具有类似的特性,即在一个字典顺序序列中,第m个单词相对于第m-1个单词的差必定是它对于前m-1个单词的差中最小的。于是,得出建树的等效算法:
①读入文件;
②对单词列表进行字典顺序排序;
③依次计算每个单词对前一单词的差,并把差累加起来。注意:第 一个单词相对于“空”的差为该单词的长度;
④累加和再加上1(根结点),输出结果。
就给定的样例,按照这个算法求结点数的过程如下表:
【数据结构】
先确定32K(32*1024=32768字节)的文件最多有多少单词和字母。当然应该尽可能地存放较短的单词。因为单词不重复,所以长度为1的单词(单个字母)最多26个;长
度为2的单词最多为26*26=676个;因为每个单词后都要一个换行符(换行符在计算机中占2个字节),所以总共已经占用的空间为:(1+2)*26+(2+2)*676=2782字节;
剩余字节(32768-2782=29986字节)分配给长度为3的单词(长度为3的单词最多有26*26*26=17576个)有29986/(3+2)≈5997。所以单词数量最多为
26+676+5997=6699。
定义一个数组:string a[32768];把所有单词连续存放起来,用选择排序或快排对单词进行排序。
先排序,然后找相邻两个单词的差值,再进行累加。
代码1:
#include<iostream>#include<string>using namespace std;int i,j,n,t,k;string s;string a[80001];//数组可以达到32768 32K=32*1024=32768int main(){freopen("word.in","r",stdin);freopen("word.out","w",stdout);while(cin>>a[++n]);//读入文件中的单词并且存储在数组中 n--;for(i=1;i<n;i++)//选择排序 {for(j=i+1;j<=n;j++){if(a[i]>a[j]){s=a[i];a[i]=a[j];a[j]=s;}}} t=a[1].length();//第一个单词的长度 for(i=2;i<=n;i++){j=0;while(a[i][j]==a[i-1][j]&&j<a[i-1].length())//求相同的长度,如果两个单词一模一样,要加j<a[i-1].lenth(),防止j一直累加 j++;t+=a[i].length()-j;//累加两个单词的差值 }cout<<t+1<<endl;return 0;}
代码2:
#include<iostream>#include<string>#include<algorithm>using namespace std;string s;string a[8001];int n=0;int t; int main(){while(cin>>s) {a[++n]=s;}//n--;sort(a+1,a+n+1);//for(int i=1;i<=n;i++) cout<<a[i]<<endl;t=a[1].length();for(int i=2;i<=n;i++){int j=0;while(a[i][j]==a[i-1][j]&&j<a[i-1].length())j++;t+=a[i].length()-j;} cout<<t+1<<endl;return 0;}
- 单词查找树(数据结构)
- 数据结构&&字典树、单词查找树
- 查找单词树(树)
- 数据结构和算法系列 - Trie—单词查找树
- Trie树(单词查找树)
- Trie树(单词查找树)
- 字符串--单词查找树(trie)
- 单词查找树
- 单词查找树
- 单词查找树
- 单词查找树
- 单词查找树
- 单词查找树
- 单词查找树
- 【NOI2000】单词查找树
- 单词查找树-trie
- 单词查找树
- 字符串:单词查找树
- 668. Kth Smallest Number in Multiplication Table
- CentOS修改ulimit(最大进程数和最大文件打开数)
- OSG 场景的组织结构
- 树
- 古文觀止卷八_送杨少尹序_韓愈
- 单词查找树(数据结构)
- Linux常用命令大全
- DNN神经网络及前向传播算法概述
- C语言第六课
- 23读书笔记之通知的基本用法
- Scramble String
- 获取QString的一部分
- 解决adb调试报错error:device not found
- 多益网络二笔(1)