什么是hash表

来源：互联网发布：sql中如何复制一张表编辑：程序博客网时间：2024/04/28 04:48

source:　click here & Here

简单来说，hash就是找到一种数据内容和数据存放地址之间的映射关系。比如，由若干字符串要存放到一个哈西表中，希望能够在O(1)的时间内在表中定位某个特定的字符串，我们可以用数组来实现哈西表，找到某种函数sting -> integer，记为 p = f(s)，其中p是一个整数，s是一个字符串，p就是字符串s在数组中的下标。这样如果需要在数组中定位s，只要直接根据函数p=f(s)就可以计算s的位置。在哈西表中添加一个字符串也类似，根据字符串的值计算出其应该存放在数组中的位置，然后将字符串放入。但是这种函数（成为哈西函数）很难找，找到一个一一对应的函数几乎不可能，所以经常采用非一一对应的哈西函数。比如对于上面的例子，我们可以设计一个简单的哈西函数，我们设f(s)定义为s的各个字符的Ascii码的和除以n的余数，这里n是我们的数组的长度，我们假设了哈西表中最多需要存储n个元素。但是这个哈西函数有个显而易见的缺点，比如对于字符串s1= "abc"和s2="acb"，显然计算出来的哈西函数值都是一样的，但是一个位置上只能存放一个元素，如果先将s1放入哈西表的位置p1，再将s2放入哈西表，这时候因为计算出p2=f(s2) = p1，所以s2应该放置的位置已经被s1占据了，所以就出现了麻烦。这就叫做“冲突”。解决这个冲突的一个简单的办法是，因为p1已经被s1占据，我们就看p1+1，如果该位置为空，则放入s2，否则继续看p1+2，……一直找到一个空位。假设我们将s2放在p1+1，但是这时候要加入s3，而f(s3)恰好等于p1+1，s3的位置又被s2占据了，我们可以继续看p1+2,p1+3……是否为空，直到找到一个空位放入s3，依此类推。在查找s2的时候，我们先根据f(s2)计算出s2应该在p1位置上，然后我们看p1位置上的元素，发现不是s2(该位置上是s1)，于是我们继续看p1+1，p1+2，……一直到找到s2，或者到表尾，或者发现一个空位就可以中止了，后两种情况表示s2不在表中。显而易见，如果冲突发生的太多的话，哈西表的效率会下降。事实上我刚才举的例子中的哈西函数很不好，所以冲突发生的可能性很大。如果找一个比较好的哈西函数，哈西表的效率还是很高的。至于找哈西函数的方法，要根据具体的数据类型和应用场合来分析，也有一些原则，这里就不一一介绍了

==================================================================================

先提一个简单的问题，如果有一个庞大的字符串数组，然后给你一个单独的字符串，让你从这个数组中查找是否有这个字符串并找到它，你会怎么做？

有一个方法最简单，老老实实从头查到尾，一个一个比较，直到找到为止，我想只要学过程序设计的人都能把这样一个程序作出来，但要是有程序员把这样的程序交给用户，或许它真的能工作，但...也只能如此了。

最合适的算法自然是使用HashTable（哈希表），先介绍介绍其中的基本知识，所谓Hash，一般是一个整数，通过某种算法，可以把一个字符串"压缩" 成一个整数，这个数称为Hash，当然，无论如何，一个32位整数是无法对应回一个字符串的，但在程序中，两个字符串计算出的Hash值相等的可能非常小，下面看看在MPQ中的Hash算法

unsigned long HashString(char *lpszFileName, unsigned long dwHashType)
{
unsigned char *key = (unsigned char *)lpszFileName;
unsigned long seed1 = 0x7FED7FED, seed2 = 0xEEEEEEEE;
int ch;

while(*key != 0)
{
ch = toupper(*key++);

seed1 = cryptTable[(dwHashType << 8) + ch] ^ (seed1 + seed2);
seed2 = ch + seed1 + seed2 + (seed2 << 5) + 3;
}
return seed1;
}

Blizzard的这个算法是非常高效的，被称为"One-Way Hash"，举个例子，字符串"unitneutralacritter.grp"通过这个算法得到的结果是0xA26067F3。
是不是把第一个算法改进一下，改成逐个比较字符串的Hash值就可以了呢，答案是，远远不够，要想得到最快的算法，就不能进行逐个的比较，通常是构造一个哈希表(Hash Table)来解决问题，哈希表是一个大数组，这个数组的容量根据程序的要求来定义，例如1024，每一个Hash值通过取模运算 (mod)对应到数组中的一个位置，这样，只要比较这个字符串的哈希值对应的位置又没有被占用，就可以得到最后的结果了，想想这是什么速度？是的，是最快的O(1)，现在仔细看看这个算法吧
int GetHashTablePos(char *lpszString, SOMESTRUCTURE *lpTable, int nTableSize)
{
int nHash = HashString(lpszString), nHashPos = nHash % nTableSize;

if (lpTable[nHashPos].bExists && !strcmp(lpTable[nHashPos].pString, lpszString))
return nHashPos;
else
return -1; //Error value
}

看到此，我想大家都在想一个很严重的问题："如果两个字符串在哈希表中对应的位置相同怎么办？",毕竟一个数组容量是有限的，这种可能性很大。解决该问题的方法很多，我首先想到的就是用"链表",感谢大学里学的数据结构教会了这个百试百灵的法宝，我遇到的很多算法都可以转化成链表来解决，只要在哈希表的每个入口挂一个链表，保存所有对应的字符串就OK了。

事情到此似乎有了完美的结局，如果是把问题独自交给我解决，此时我可能就要开始定义数据结构然后写代码了。然而Blizzard的程序员使用的方法则是更精妙的方法。基本原理就是：他们在哈希表中不是用一个哈希值而是用三个哈希值来校验字符串。

中国有句古话"再一再二不能再三再四"，看来Blizzard也深得此话的精髓，如果说两个不同的字符串经过一个哈希算法得到的入口点一致有可能，但用三个不同的哈希算法算出的入口点都一致，那几乎可以肯定是不可能的事了，这个几率是1:18889465931478580854784，大概是10的 22.3次方分之一，对一个游戏程序来说足够安全了。

现在再回到数据结构上，Blizzard使用的哈希表没有使用链表，而采用"顺延"的方式来解决问题，看看这个算法：
int GetHashTablePos(char *lpszString, MPQHASHTABLE *lpTable, int nTableSize)
{
const int HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;
int nHash = HashString(lpszString, HASH_OFFSET);
int nHashA = HashString(lpszString, HASH_A);
int nHashB = HashString(lpszString, HASH_B);
int nHashStart = nHash % nTableSize, nHashPos = nHashStart;

while (lpTable[nHashPos].bExists)
{
if (lpTable[nHashPos].nHashA == nHashA && lpTable[nHashPos].nHashB == nHashB)
return nHashPos;
else
nHashPos = (nHashPos + 1) % nTableSize;

if (nHashPos == nHashStart)
break;
}

return -1; //Error value
}

1. 计算出字符串的三个哈希值（一个用来确定位置，另外两个用来校验)
2. 察看哈希表中的这个位置
3. 哈希表中这个位置为空吗？如果为空，则肯定该字符串不存在，返回
4. 如果存在，则检查其他两个哈希值是否也匹配，如果匹配，则表示找到了该字符串，返回
5. 移到下一个位置，如果已经越界，则表示没有找到，返回
6. 看看是不是又回到了原来的位置，如果是，则返回没找到
7. 回到3

怎么样，很简单的算法吧，但确实是天才的idea, 其实最优秀的算法往往是简单有效的算法.