Hash表的一种实现

来源:互联网 发布:模拟人生3 mac 编辑:程序博客网 时间:2024/04/28 15:51

Hash是在数据统计和海量数据处理中经常使用到的一个方法和数据结构。

Hash支持的外部操作:插入新数据、查找数据。(一般不支持删除数据)

Hash的使用包括两个重要部分:一个是Hash函数,一个是存储方法。


Hash函数:把数据集的一个单元转换成hashID。比如要存储一个个字符串,就需要把字符串转换为hashID。

存储方法:如何组织数据集的数据。这里涉及到一个问题就是,相同hashID的数据(冲突)该如何存储。常用的方法有数组直接存储、链地址法。


下面的一种实现的存储方法是,

数据的实际存储是按到达先后顺序连续存放在数组中。为了快速查找,又把相同hashID的数据链接起来形成链表。


node[] 数组用于存储数据。

head[] 数据用于存储每种hashID对应链表的表头,是最后插入数据的node结点地址。


如下图所示,红色线串起来的就是数据1所对应的链表。



代码如下:

#include <cstring>const int kWordSize = 26 + 5;const int kNodeSize = 1200 + 5;const int kHashSize = 10001; //大质数struct Node{    char word[kWordSize];    Node *next;};Node node[kNodeSize + 1];Node* head[kHashSize + 1];//node数组 顺序存储依次插入的数据 next结点链指向下一个同样hashID的数据 //head数组 记录每个hashID对应的最后插入的数据的node结点地址。class Hash{public:    Hash();    unsigned int hash(const char* str);    void insert(const char* str);    bool find(const char* str);private:    unsigned int seed;     unsigned int size; //hash表的当前大小};Hash::Hash():seed(131),size(0){ //构造函数    memset(head, 0, sizeof(head));}unsigned int Hash::hash(const char* str){ // from string to hashID    unsigned int hash = 0;    while(*str++)        hash = hash * seed + (*str);    return (hash & 0x7FFFFFFF) % kHashSize;}void Hash::insert(const char* str){    unsigned int id = hash(str);    char *dst = (char*)node[size].word;    while(*dst++ = *str++); //把新插入数据拷贝到node[]    node[size].next = head[id];    head[id] = &node[size]; //node[].next存放的是同样hashID字符串的前一次存储    ++size;}bool Hash::find(const char* str){    unsigned int id = hash(str);    for(Node* p=head[id]; p ; p=p->next){        char *dst = (char*)p->word;        int i = 0;        while(*(str+i) && *(dst+i)==*(str+i))            ++i;        if(*(str+i)=='\0' && *(dst+i)=='\0')            return true;    }    return false;}




0 0