在字典中查找兄弟单词

来源：互联网发布：linux删除swap文件编辑：程序博客网时间：2024/05/14 05:21

一个单词如果交换其所含字母顺序，得到的单词称为兄弟单词，例如mary和army是兄弟单词，即所含字母是一样的，只是字母顺序不同，用户输入一个单词，要求在一个字典中找出该单词的所有兄弟单词，并输出。给出相应的数据结构及算法。要求时间和空间复杂度尽可能。

目前思想：

struct {

char data；

int n

}；

根据数学定理：任何一个大于1的自然数N，都可以唯一分解成有限个质数的乘积 N=(P_1^a1)*(P_2^a2)......(P_n^an) , 这里P_1

例如

a=2 b=3 c=5 d=7 e=11...

f(abcd)=2*3*5*7=210

然后字典里找乘积210的位数相同的一定是这5个字母组合的单词就是兄弟单词

问题：

给定一个单词a，如果通过交换单词中字母的顺序可以得到另外的单词b，那么定义b是a的兄弟单词，例如单词army和mary互为兄弟单词。现在给定一个字典，用户输入一个单词，如何根据字典找出这个单词有哪些兄弟单词？要求时间和空间效率尽可能的高。

解法一：

使用hash_map和链表。
首先定义一个key，使得兄弟单词有相同的key，不是兄弟的单词有不同的key。例如，将单词按字母从小到大重新排序后作为其key，比如bad的key为abd，good的key为dgoo。
使用链表将所有兄弟单词串在一起，hash_map的key为单词的key，value为链表的起始地址。
开始时，先遍历字典，将每个单词都按照key加入到对应的链表当中。当需要找兄弟单词时，只需求取这个单词的key，然后到hash_map中找到对应的链表即可。
这样创建hash_map时时间复杂度为O(n)，查找兄弟单词时时间复杂度是O(1)。

解法二：

同样使用hash_map和链表。

将每一个字母对应一个质数，然后让对应的质数相乘，将得到的值进行hash，这样兄弟单词的值就是一样的了，并且不同单词的质数相乘积肯定不同。

使用链表将所有兄弟单词串在一起，hash_map的key为单词的质数相乘积，value为链表的起始地址。

对于用户输入的单词进行计算，然后查找hash，将链表遍历输出就得到所有兄弟单词。

这样创建hash_map时时间复杂度为O(n)，查找兄弟单词时时间复杂度是O(1)。

据说是百度的一个面试题，是这样描述的：

其实总结下问题描述其实是差不多的：给定一个字典（即单词序列），用户输入一个单词，求出字典中单词的变换？

一：

看到这个题目后，直觉是可能是这样的：求出输入单词的全部变换（假如单词的长度是n，则其全部变换有n!个。如果有相同的字母就不是n!了吧？），求出单词的变换后，判断每个变换是否在字典中。

例如对于输入abc，则其变换有3!=6种：abc、acb、bca、bac、cab、cba。然后在依次判断这6个单词(当然这里不是单词了，而是字符串)是否在字典中，如果在字典中则记录下来。

很明显这种思想的复杂度是比较高的，因为对于n稍微大点的话，n!是一个很可怕的递增过程，因此这个方法是不太可取的。

二：

考虑使用hash的方法。构造一个hash函数，该函数使得单词的变换具有相同的hash值。

可以构造这样的函数，给定一个字符串，其hash值是字符串中字母的有序排列。例如字符串cda对应的hash值是acd；zhang的hash值是aghnz，即是字母从小到大的排列。这样对于一个单词的变换其hash值是相同的。

有上面的介绍后可以根据下面的步骤来进行了：

1、根据输入单词求出其hash值，即将单词按字母从小到大进行排列。

2、遍历给定的字典，对于字典里的每个单词，求出其hash值，然后和上一步中求出的hash值进行比较，如果相等，那么这个单词就是输入单词的一个变换，否则不是。

当然上面的方法是可行的。不过时间复杂度是比较高的：

word_hash = hash(word); //如果使用快排，复杂度是nlgn

for(i=0; i<n; i++)//n

{

temp = hash(dic[i]); //nlgn

if(strcmp(temp, word_hash) == 0)

{

output dic[i];

}

总的时间复杂度是n*nlgn（不知道算的正确不），当然，如果hash的时间复杂度降低的话还是很不错的。

通过上面可以知道其实可以提前求出字典中单词的hash值，然后再进行匹配的。这样可以有一个变化的方法：

利用c++中的mutilmap或者其他容器，将hash值和字典中的单词昨为一个pair保存在mutilmap中。pair的情况是：<hash(word), word>，其中hash(word)作为map的key，word作为value。

这样就可以遍历map进行判断了。当然也可以先对map进行排序，这样会更快点。

这大概就是这个题目的思路。

编程珠玑上有一些简单的介绍和一个程序实现；这本 STL.Tutorial.and.Reference.Guide 的第12~15章节都是分析了这个问题，不断的改进，是一个很详细的介绍，值得学习。

1 0