编程之美系列之二——寻找出现频率超过一半的数

来源:互联网 发布:安徽数据堂 编辑:程序博客网 时间:2024/05/16 07:25

问题描述:

       现在有一数组存放int型整数,数字有重复,且有一数字出现的频率超过了50%,请找出这个数字。

       补充:主要考虑数据量很大的情况。

 

问题求解:

分析:

      最直接的方法就是对数组中所有的数字排序,然后再扫描一遍,统计各个数字出现的次数,如果某个数字出现的次数超过一半,则输出这个数字。显然这个算法的时间复杂度是O(N * log2N + N)。

      事实上,假如现在数组已经有序,那么数组中间的数字一定是这个要求的数字,所以根本不必扫描。此时算法的时间复杂度是O(N * log2N + 1)。那还能不能再简化一些呢?

      我们看到,算法主要的消耗在排序这块,那能否跳过排序这个步骤呢?我们这样想,假如每次删除两个不同的数(不管包括不包括最高频数),那么,在剩下的数字里,原最高频数出现的频率一样超过了50%,不断重复这个过程,最后剩下的将全是同样的数字,即最高频数。此算法避免的排序,时间复杂度只为O(N)。

代码如下:

       

复制代码
1 static int FindMostApperse(int[] num) 2 { 3 int candidate = 0; 4 int count = 0; 5 for (int i = 0; i < num.Length; i++) 6 { 7 if (count == 0) 8 { 9 candidate = num[i];10 count = 1;11 }12 else13 {14 if (candidate == num[i])15 count++;16 else17 count--;18 }19 }20 return candidate;21 }
复制代码

      这个算法体现了计算机科学中一种很普遍的思想,就是把一个问题转化为规模较小的若干个问题。分治、递归、贪心等都是基于这样的思想。转化的效率越高,转化之后问题的规模缩小的越快,则正题的时间复杂度越低。

 

扩展问题:

      现在数组中没有出现频率一半的数字了,但有三个都超过了四分之一,找到他们。

分析:

      与原问题一样,只要降低规模即可,每次去掉四个不相同的数字,一直重复,最后剩下的三个数字就是答案。

代码如下:

复制代码
1 static int candiA = 0, candiB = 0, candiC = 0; 2 static void FindThreeMost(int[] num) 3 { 4 int countA = 0, countB = 0, countC = 0; 5 for (int i = 0; i < num.Length; i++) 6 { 7 if (countA == 0 || countB == 0 || countC == 0 ) 8 { 9 if (countA == 0)10 {11 if (countB != 0 && num[i] == candiB)12 countB++;13 else if (countC != 0 && num[i] == candiC)14 countC++;15 else16 {17 candiA = num[i];18 countA++;19 }20 }21 else if (countB == 0)22 {23 if (countA != 0 && num[i] == candiA)24 countA++;25 else if (countC != 0 && num[i] == candiC)26 countC++;27 else28 {29 candiB = num[i];30 countB++;31 }32 }33 else if (countC == 0)34 {35 if (countA != 0 && num[i] == candiA)36 countA++;37 else if (countB != 0 && num[i] == candiB)38 countB++;39 else40 {41 candiC = num[i];42 countC++;43 }44 }45 }46 47 else48 {49 if (num[i] == candiA)50 countA++;51 else if (num[i] == candiB)52 countB++;53 else if (num[i] == candiC)54 countC++;55 else56 {57 countA--;58 countB--;59 countC--;60 }61 }62 }63 }
复制代码

      此算法的时间复杂度仍为O(N),只是判断条件较多,欢迎大家拿出更简明的代码来讨论。

 

 

本文出自:http://www.cnblogs.com/jy02414216/archive/2011/03/04/1970497.html