多路数组聚集（Multiway array aggregatin）

来源：互联网发布：单词翻译软件编辑：程序博客网时间：2024/04/27 17:20

from:

http://blog.sina.com.cn/s/blog_4b99f86c010006vt.html

今天看数据挖掘讲义里面的OLAP，看到多路数组聚集的时候费了好大劲才看懂了。赶快记下来以免忘记。
    多路数组聚集其实就是对维度(dimension)进行选择，保留一些常用的可以很方便地生成别的子立方体的立方体(cube)。对一个维做聚集(aggregation)其实就是按照这个维度的方向做加法，把这个维度的值缩减成一个。比如3D的按照某一维降成2D,最终降成0D的也就是数多维数组里面非零元素的个数了（假设数组元素是0-1）。
    当把多维数组文件分割成可以放进内存的块(chuck)时，我们希望尽可能减少需要重新载入块的操作，也就是减少I/O，尽可能需要这块的操作都一次过完成。也就是每个块只是被载入一次。这个是很容易做到的，但是不同的块载入顺序在维度聚集的时候会需要不同的缓存大小，而各个维度的聚集是同时进行的，所以需要一个合适的载入块的顺序使得所需要的缓存最小。
    比如，一个三维的立方体ABC，我们要聚集成AB、AC、BC三个二维的立方体，这三个聚集是同时做的，所以按照什么样的顺序载入chuck会影响到这三个聚集中间数据要保存时间的长短，进而影响所需要的缓存到小（因为需要保存中间结果越多，所需缓存越大）。
    如果A、B、C的基数分别是40，400，4000，每个维度分4段，一段构成一个chuck的边。那么chuck取的顺序应该是按照基数由小到大的维度，也就是先A后B再C。
    原因是先A维，那么BC可以按照最小的面积（100×1000）在BC方向的面做聚集。
    而后B维，那么AC就要按照整个A轴乘以C的一块（40×1000），因为至少当第4块取完。第5块开始取的时候，才能抛弃开始更新第一块的值，所以在第一块的值能够被更新以前，所有的中间结果都要保留。
    最后C维，那么AB就要按照整个AB面做聚集（40×400）。原因是第一块，的值要等到第17块载入的时候才能被更新，所以在这之前计算的中间值都要被保存。
    总结来说，就是看到第x块被载入的时候，第1块被更新（因为这块的载入），那么从1到(x-1)块在当前不需要做聚集的维度上的“超面积”（也就是各个维的基数乘起来）就是所需要的缓存数。另外一种说法，就是1到(x-1)块的侧面积之和（不需要聚集的维度上）。

0 0