中位数

来源:互联网 发布:teradata advanced sql 编辑:程序博客网 时间:2024/06/08 10:54

假如有5亿个int,寻找它们的中位数。

基本分析参见http://blog.csdn.net/liuyuan185442111/article/details/48396413

因为数字有5亿个,不可能一次性全部载入内存进行排序,所以,采用分桶策略,桶大小视具体情况而定。

基本思路:1 分桶;2 确定中位数所在的桶 T ;3 从T中取得中位数

分两种情况:重复数字不计算在内和重复数字计算在内。

重复数字不计算在内:
分桶,用一个BIT位代表 一个数字,
1 内存中定义一个整数数组A,假设整数32位,最大整数为M,则数组大小为M/32,数组中每一个bit位代表一个整数,则T/32=i,T%32=j,将A[i]的第j位置为1,如此将5亿个数映射到整数数组A中.
2 定义一个数组B,大小与A相同,B[0]=A[0]中1的个数,B[1]=A[1]中1的个数+B[0],B[2]=A[2]中1的个数+B[1],B[i]=A[i]中1的个数+B[i-1],则A[M/32]值就为总的数据个数,从而就可知道中位数的序号
3 从B数组中求得中位数在A数组的下标,从A数组中得到中位数的值。

不重复数字计算在内:
分桶,桶内数据链式直接插入排序
1 分桶 2^16
2 得到中位数所在的桶T
3 链表实现直接插入排序,链表长度等于中位数所在位置N,遍历T,得到中位数。
  • 因为只需要得到中位数,不需要对排序完成的进行读取操作,所以不需要得到桶内所有数据的排序结果。
  • 为了解决每次插入数据都要从链表头进行查找,可以在N长链表的构建及后期维护过程中,维持一个当前链表中间位置的变量,每次从桶内读取到一个新的数据A时,首先判断当前链表为N,如果A比链尾元素值大,则从桶中取下个数值,如果A小于链尾元素的值,则将A与中间位置元素的值进行比较。
  • 比较N与桶内数据问题S/2的大小,如果N大,则链表取桶内数据最大的S-N个数,否则取桶内数据最小的N个数

原创粉丝点击