多路数组聚集(Multiway array aggregatin)

来源:互联网 发布:单词翻译软件 编辑:程序博客网 时间:2024/04/27 17:20
from:


http://blog.sina.com.cn/s/blog_4b99f86c010006vt.html

今天看数据挖掘讲义里面的OLAP,看到多路数组聚集的时候费了好大劲才看懂了。赶快记下来以免忘记。
    多路数组聚集其实就是对维度(dimension)进行选择,保留一些常用的可以很方便地生成别的子立方体的立方体(cube)。对一个维做聚集(aggregation)其实就是按照这个维度的方向做加法,把这个维度的值缩减成一个。比如3D的按照某一维降成2D,最终降成0D的也就是数多维数组里面非零元素的个数了(假设数组元素是0-1)。
    当把多维数组文件分割成可以放进内存的块(chuck)时,我们希望尽可能减少需要重新载入块的操作,也就是减少I/O,尽可能需要这块的操作都一次过完成。也就是每个块只是被载入一次。这个是很容易做到的,但是不同的块载入顺序在维度聚集的时候会需要不同的缓存大小,而各个维度的聚集是同时进行的,所以需要一个合适的载入块的顺序使得所需要的缓存最小。
    比如,一个三维的立方体ABC,我们要聚集成AB、AC、BC三个二维的立方体,这三个聚集是同时做的,所以按照什么样的顺序载入chuck会影响到这三个聚集中间数据要保存时间的长短,进而影响所需要的缓存到小(因为需要保存中间结果越多,所需缓存越大)。
    如果A、B、C的基数分别是40,400,4000,每个维度分4段,一段构成一个chuck的边。那么chuck取的顺序应该是按照基数由小到大的维度,也就是先A后B再C。
    原因是先A维,那么BC可以按照最小的面积(100×1000)在BC方向的面做聚集。
    而后B维,那么AC就要按照整个A轴乘以C的一块(40×1000),因为至少当第4块取完。第5块开始取的时候,才能抛弃开始更新第一块的值,所以在第一块的值能够被更新以前,所有的中间结果都要保留。
    最后C维,那么AB就要按照整个AB面做聚集(40×400)。原因是第一块,的值要等到第17块载入的时候才能被更新,所以在这之前计算的中间值都要被保存。
    总结来说,就是看到第x块被载入的时候,第1块被更新(因为这块的载入),那么从1到(x-1)块在当前不需要做聚集的维度上的“超面积”(也就是各个维的基数乘起来)就是所需要的缓存数。另外一种说法,就是1到(x-1)块的侧面积之和(不需要聚集的维度上)。

0 0
原创粉丝点击