谈模型技术之代理键使用的深入理解

来源：互联网发布：熊猫人之谜cg 知乎编辑：程序博客网时间：2024/06/05 07:21

从第一次使用代理键技术开始，就去深入总结了很多代理键在各个方面的功能，结合Kimball资料中的介绍，就理解得更多了。

首先代理键的基本理解，应该是对维度ID的一个代用Key值，一定是数字字符型，最根本不可替代的作用，就是能反映维的变化，如果你不使用代理键，那么就得用维ID结合变化时间去描述，这样在DW的ETL过程中，效率会非常慢，而且和事实表关联后，事实表就会有N多时间标志字段，到后来就是乱七八糟的模型了。所以从这个角度来看，代理键在数据库仓库模型中，是必须用的技术。

其次代理键既然是代理，那么注定了它只能在DW存储中使用，在源、展现中，都和它无关，它说白了就是信息管道，变化前初始信息请走管道0通道、变化1请走管道1号通道。达到目的展现后，它的任务完成了，最终用户是感觉不到它的身影的。

再数据仓库模型高级技术中，它也是重要角色，无论你想保留并跟踪维历史定义的变化，还是保留和跟踪维层次的变化，几乎所有相关变化都可以用代理键去处理。代理键升华后，你可以无限创新下去，反正多数维的数据量有限，你可以无限地跟踪各种变化，效果真是爽啊，而且这种架构会使你在变化中坚固屹立不倒，成为主动解决业务问题的模型技术典范。

从代理键角度讲，维表中使用代理键，和事实表关联是使用代理键吗？

在原来谈架构的时候，谈到内部架构的紧偶合，就是说这样的关系，维表和事实表息息相关。当维表有变化时，代理键必定会更新，而每个周期的事实表对应的维，也需要根据具体情况去关联ETL，他们才能完整的形成一个信息整体。

适应变化的技术也得整体考虑，否则会顾前就顾不了尾。所以这才是必须先维表后事实表的根本原因，而在展现的时候，由于事实表和维表是在统一的代理键下工作的，可以放心关联使用。

同时还得考虑多周期和历史信息表，相信多数大型DW项目中都会将当前事实表按照周期分开为前端服务，同时也会因为效率原因，将近时期数据和中远时期数据分开物理存储。因此在ETL过程中，这些ETL流程都要理顺，历史表也不能遗漏。

而在最新的模型技术中，会有辅助模型和参考模型的高级技术，他们的初衷无非是更好地服务“变化”二字，特别是复杂的企业信息架构，不定期、不定维、不定势地变化起来，真的很恐怖，一般架构难以长期维持。这个时候代理键技术仍然是这些高级建模技术的基础，有了代理键，你可以将维表和参考模型/辅助模型关联起来，而又因为维表和事实表关联，所以整个架构就显得紧凑而坚固。

大家如果好几年前就做过DW项目的话，可能做过没有代理键的模型架构，刚开始还觉得很不错，没多久维护量就猛增，有体会的，现在不防假设下你不用代理键设计DW，后果会怎样？

对了，在有的项目中，DW模型以雪花型为主，这样存储方便，逻辑紧凑，而数据集市为了展现可能会演变成纯星型模型，这当中的转变，一定要小心，必须也是先考虑维表，再考虑事实表，代理键也是他们的重要桥梁，不要搞乱桥梁了。

在ITPUB看见有人回复“见过fact表设置代理键的吗？维表的常用”

彻底无语，真不知道现在很多项目怎么设计的，当真“所需所欲”哦。看来“标准项目”做多了，真不知道很多项目还是这样的随意设计，没有整体体系而言。讨论起来，有点对牛弹琴的感觉

不知理解是否正确：从技术上讲，
代理键，能否理解为唯一标识。对于变化维的三种处理方式：
1) 对于直接覆盖性的缓慢变化维度，不要求存储历史，代理键作用变小。业务键和代理键一体了。
2）对于增进列的方式：代理键和业务键也可以一体。
3）对于增加行的方式。如果没有唯一的代理键，则需要业务键和日期或状态组合一起作为唯一标识，那样在fact表中就也同样需要这个组合。给查询和使用带来比较多的不方便。因此，使用代理键比较好

从OLTP上讲，目前代理键也是比较好的一种方式，使用于OLTP系统的建模，有很多资料论述过。

所以无论哪种方式，个人认为，使用代理键应该是一种好的建模习惯。

业务系统使用代理建倒真没见过，至少我几年前参与业务系统时没用到这个，只有ID或者CD，然后就是状态、时间作为标示，毕竟业务系统没有必要保留所有历史变化记录。

一般我见过后缀是ID的都是数字型，CD的都是字符型，如果所说的业务系统代理建仅仅是增加一个数字型的ID的话，那还不算代理建，代理键的根本标志还是在描述事物的对应关系和实现方式上。

而且在OLTP系统使用代理键并没有分析型系统那么大的优势，使用不当反而是累赘，而且没有这个环境，因为OLTP事务处理过程中，有的有相关参数表或者描述表，就是维表的数据源，有的则没有相关维表，比如时间维。那么OLTP是如何使用代理键的，怎么体现出这个技术优势的，真的有点纳闷。

在多维建模技术的不断深入进化过程中，普通变化维并不是代理键体现其技术优势的唯一场所。

还能体现优势的场所有：雪花模型到星型模型的轻松转换。多数数据仓库多维模型采用的还是雪花模型或者偏雪花模型，因为每个行业都会出现各种父子维等层次关系，以雪花模型存储，不但节省空间，而且逻辑清晰严谨。而在前端展现的时候，Kimball提倡用星型模型，是非常有道理的，特别是当你有越来越多BI应用在用，成千上万用户逐渐使用BI后，雪花模型的存储（哪怕前端逻辑是星型的）将是性能瓶颈的最突出地方。

参考模型的使用，这里主要指不同部门的客户，或者公司对维层次关系未清晰之前，会不断修改层次关系。如果说普通ID键也能将他们的层级关系建立起来，那么当层次不断变化、自定义维不断改定义的时候，唯有代理键能解决这个问题。比如一个财务月定义一变，整个财务月相关的维表描述信息都作废了，算法重算，老表已经作废了，这就不是变化维的问题了。组织层次的变化，例如原来是公司-世界市场大区-国家-省/市分公司，现在某国家A从世界1大区变化为属于世界2大区了，组织层次变化为公司-世界大区-分公司了，只有我有代理键，无论你层次怎么变，我总有一个唯一标示表示这个维就行了，至于你父子维怎么建立关系，那是你父子之间的事情，你们的关系变化了，告诉我一声，我把你们的这个关系的唯一标示改一改即可。提醒一句，这里的参考模型是采用变化维处理方式的，只是它不再直接存储维数据，而是存储父子维的关系，或者单一维的定义，这是该技术最绝妙的地方。