data warehouse的概念个人理解总结

来源:互联网 发布:js 身份证上传照片 编辑:程序博客网 时间:2024/05/22 13:59

做BI近1年了,在小公司的好处就是开发的个个阶段都要参与,需求分析,数据库建模,ETL编码,测试,上线,维护,Change Request,直到系统稳定。说规范,比不上大公司对各个过程的控制。开个玩笑话可以说是走的野路子吧,呵呵。

我不属于理论派的,做项目的时候不会脑子里时时刻刻想着数据仓库模型数据库范式等等,开发建模是基于客户需求。昨天接到HP的电话面试,HR问我星型模型和雪花模型的概念,我直接告诉她,我给你讲讲实际项目中我是如何做的,不谈概念。接着有是一连串的概念问题。

我不认为说讲不好理论就做不好项目,我们每个人都在这个世上,有必要说说进化论么?   面试结果如何无所谓地,不过也提醒了自己,应该回过头看看BI、DW,ETL的相关理论了。

 

什么是数据仓库data warehouse?

是对组织,公司等历史数据的电子存储, 是面向主题的,集成的,稳定的并随时间变化的数据集合,目的呢用来查询分析。就现在,这句话我够用了,概念太多了,越看越糊涂,越看越觉得不懂。在分一下4个方面,

面向主题是啥嘞?  数据仓库是用来分析数据的,总得为了个主题。比如‘谁是我们去年这个产品上最重要的客户?’面向了产品,客户。数据仓库围绕一些主题,产品,客户,供应商,销售渠道(一级销售,二级销售,三级销售,小门店等等)。具体看业务怎么分了。

集成的是啥嘞?把数据从不同的数据源集中到一起,它们就要有这一直的格式。这就必须解决命名冲突,数据冗余,不一致等问题。

稳定的是啥嘞?数据一旦进入数据仓库,就不能再被删除。

随时间变化的?数据仓库里装载着历史数据和当前的数据(nearly)。

 

先这样,工作了。