单词查找树

来源：互联网发布：下单约会软件编辑：程序博客网时间：2024/05/22 06:40

在进行文法分析的时候，通常需要检测一个单词是否在我们的单词列表里。为了提高查找和定位的速度，通常都画出与单词列表所对应的单词查找树，其特点如下：
1．根结点不包含字母，除根结点外每一个结点都仅包含一个大写英文字母；
2．从根结点到某一结点，路径上经过的字母依次连起来所构成的字母序列，称为该结点对应的单词。单词列表中的每个单词，都是该单词查找树某个结点所对应的单词；
3．在满足上述条件下，该单词查找树的结点数最少。
4．例如图左边的单词列表就对应于右边的单词查找树。注意，对一个确定的单词列表，请统计对应的单词查找树的结点数（包含根结点）。
【问题输入】
　　输入文件名为word.in，该文件为一个单词列表，每一行仅包含一个单词和一个换行/回车符。每个单词仅由大写的英文字母组成，长度不超过63个字母。文件总长度不超过32K，至少有一行数据。
【问题输出】
　　输出文件名为word.out，该文件中仅包含一个整数，该整数为单词列表对应的单词查找树的结点数。
【样例输入】
　　　A
　　　AN
　　　ASP
　　　AS
　　　ASC
　　　ASCII
　　　BAS
　　　BASIC
【样例输出】
13
这里写图片描述
【算法分析】
首先要对建树的过程有一个了解。对于当前被处理的单词和当前树：在根结点的子结点中找单词的第一位字母，若存在则进而在该结点的子结点中寻找第二位……如此下去直到单词结束，即不需要在该树中添加结点；或单词的第n位不能被找到，即将单词的第n位及其后的字母依次加入单词查找树中去。但，本问题只是问你结点总数，而非建树方案，且有32K文件，所以应该考虑能不能不通过建树就直接算出结点数？为了说明问题的本质，我们给出一个定义：一个单词相对于另一个单词的差：设单词1的长度为L，且与单词2从第N位开始不一致，则说单词1相对于单词2的差为L-N+1，这是描述单词相似程度的量。可见，将一个单词加入单词树的时候，须加入的结点数等于该单词树中已有单词的差的最小值。
单词的字典顺序排列后的序列则具有类似的特性，即在一个字典顺序序列中，第m个单词相对于第m-1个单词的差必定是它对于前m-1个单词的差中最小的。于是，得出建树的等效算法：
① 读入文件；
② 对单词列表进行字典顺序排序；
③ 依次计算每个单词对前一单词的差，并把差累加起来。注意：第一个单词相对于“空”的差为该单词的长度；
④ 累加和再加上1（根结点），输出结果。
就给定的样例，按照这个算法求结点数的过程如下表：
这里写图片描述
【数据结构】
先确定32K（32*1024=32768字节）的文件最多有多少单词和字母。当然应该尽可能地存放较短的单词。因为单词不重复，所以长度为1的单词（单个字母）最多26个；长度为2的单词最多为26*26=676个；因为每个单词后都要一个换行符（换行符在计算机中占2个字节），所以总共已经占用的空间为：（1+2）*26+（2+2）*676=2782字节；剩余字节（32768-2782=29986字节）分配给长度为3的单词（长度为3的单词最多有 26*26*26=17576个）有29986/（3+2）≈5997。所以单词数量最多为26+676+5997=6699。
定义一个数组：string a[32768]；把所有单词连续存放起来，用选择排序或快排对单词进行排序。

#include <iostream>#include <cstdio>#include <string>using namespace std;int i, j, n, t, k;string a[8001];             //数组可以到32768string s;int main(){    freopen("word.in", "r", stdin);    freopen("word.out", "w", stdout);    while(cin >> a[++n]);     //读入文件中的单词并且存储到数组中    n--;    for(i = 1 ; i < n ; i++)     //单词从小到大排序，选择排序可改为快排sort(a + 1, a + n + 1)         for(j = i + 1 ; j <= n ; j++)            if(a[i] > a[j])        //两个单词进行交换      {            s = a[i];a[i] = a[j];             a[j] = s;             }    t = a[1].length();          //先累加第1个单词的长度    for(i = 2 ; i <= n ; i++)     //依次计算每个单词对前一单词的差    {        j = 0;        while(a[i][j] == a[i - 1][j] && j < a[i - 1].length()) j++; //求两个单词相同部分的长度        t += a[i].length() - j;   //累加两个单词的差length(a[i])-j    }    cout << t + 1 << endl;    return 0;}

2 0