字典树

来源:互联网 发布:淘宝优惠劵 编辑:程序博客网 时间:2024/05/22 09:15


字典树:

     又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。

  字典树的基本功能是用来查询某个单词(前缀)在所有单词中出现次数的一种数据结构,它的插入和查询复杂度都为O(len),Len为单词(前缀)长度,但是它的空间复杂度却非常高,如果字符集是26个字母,那每个节点的度就有26个,典型的以空间换时间结构。

                    

下面我们选的存储字典树节点的数据结构为:

     typedef struct node
      {
        struct node *next[Max];  //表示对于每个节点最多有26个孩子节点
        int num;   //表示存储的孩子节点的个数
      }Node;

下面以一个例子为例:给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过。

     假设我要查询的单词是abcd,那么在他前面的单词中,以b,c,d,f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……

字典树代码实现:

#include<iostream>

using namespacestd;

#define Max 26

typedef structnode

{

    struct node *next[Max];

    int num;

}Node;

//创建一个新节点

Node *createNew()

{

    Node *p=new Node;//为p分配内存空间

    for(int i=0;i<Max;i++)

    {

        p->next[i]=NULL;

    }

    p->num=0;

    return p;

}

//插入一个字符串

voidInsert_str(char str[],Node *head)

{

    int len=strlen(str);

    Node *t,*p=head;

    for(int i=0;i<len;i++)

    {

        int c=str[i]-'a';

        if(p->next[c]==NULL)

        {

 

            t=createNew();

            p->next[c]=t;

            p->num++;//存储的是拥有此最大前缀的字符串的个数!!

           //cout<<p->num<<endl;

             p=p->next[c];//指针下移

        }

        else

        {

            p=p->next[c];

        }

    }

}

intSearch_str(char str[],Node *head)

{

    Node *p=head;

    int len=strlen(str);

    int count=0;

    for(int i=0;i<len;i++)

    {

        int c=str[i]-'a';

        if(p->next[c]==NULL)

        {

 

            cout<<"不存在字符串"<<endl;

            count=0;

            return 0;

        }

        else

        {

            p=p->next[c];

            count=p->num;

        }

 

 

    }

    return count;

}

int main()

{

    cout<<"nihao"<<endl;

    Node *head=createNew();

    char s[10];

   while(cin>>s,strcmp(s,"quit"))

    {

        Insert_str(s,head);

    }

    int c=Search_str("abc",head);

    cout<<c<<endl;

    system("pause");

 

 

   return 0;

}

字典树的典型应用:

1.统计一组字符串中某前缀出现的次数(直接用上面的代码就行)。

2.判断一组字符串中是否有一个字符串是另一个字符串的前缀。

    分析:我们只要在结点中添加一个nEndFlag成员变量即可。若nEndFlag == 1,说明该结点字符是某一字符串的结尾(假设为A),若在插入B字符串的过程中经过这一结点,则说明A是B的    前缀;还有一种情况,当要插入最后一个字符c时,却发现p->next[c-'a']为真,则说明该字符串是一个前缀字符串,eg:先插入abcde,再插入abc这种情况。

3. 串排序:给定N个互不相同的仅由一个单词构成的英文名,让你将他们按字典序从小到大输出

  用字典树进行排序,采用数组的方式创建字典树,这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可

 

0 0