中位数

来源：互联网发布：teradata advanced sql 编辑：程序博客网时间：2024/06/08 10:54

假如有5亿个int，寻找它们的中位数。

基本分析参见http://blog.csdn.net/liuyuan185442111/article/details/48396413

因为数字有5亿个，不可能一次性全部载入内存进行排序，所以，采用分桶策略，桶大小视具体情况而定。

基本思路：1 分桶；2 确定中位数所在的桶 T ；3 从T中取得中位数

分两种情况：重复数字不计算在内和重复数字计算在内。

重复数字不计算在内：

分桶，用一个BIT位代表一个数字，

1 内存中定义一个整数数组A，假设整数32位，最大整数为M，则数组大小为M/32，数组中每一个bit位代表一个整数，则T/32=i,T%32=j，将A[i]的第j位置为1，如此将5亿个数映射到整数数组A中.
2 定义一个数组B，大小与A相同，B[0]=A[0]中1的个数，B[1]=A[1]中1的个数+B[0]，B[2]=A[2]中1的个数+B[1]，B[i]=A[i]中1的个数+B[i-1]，则A[M/32]值就为总的数据个数，从而就可知道中位数的序号
3 从B数组中求得中位数在A数组的下标，从A数组中得到中位数的值。

不重复数字计算在内：

分桶，桶内数据链式直接插入排序

1 分桶 2^16

2 得到中位数所在的桶T

3 链表实现直接插入排序，链表长度等于中位数所在位置N，遍历T，得到中位数。

因为只需要得到中位数，不需要对排序完成的进行读取操作，所以不需要得到桶内所有数据的排序结果。
为了解决每次插入数据都要从链表头进行查找，可以在N长链表的构建及后期维护过程中，维持一个当前链表中间位置的变量，每次从桶内读取到一个新的数据A时，首先判断当前链表为N，如果A比链尾元素值大，则从桶中取下个数值，如果A小于链尾元素的值，则将A与中间位置元素的值进行比较。
比较N与桶内数据问题S/2的大小，如果N大，则链表取桶内数据最大的S-N个数，否则取桶内数据最小的N个数

阅读全文

0 0