学习数据仓库DAY1笔记

来源:互联网 发布:python英文怎么读 编辑:程序博客网 时间:2024/05/29 09:56

第一次接触数据仓库,我首先了解数据仓库的基本的一些概念:

1.BI:business intelligent,商业智能,用科学的分析方法,为领导提供科学决策信息的过程,主要是数据组将处理好的数据送来之后,生成易于观看分析的折线图,饼图之类的各种图,并且处理数据组没有处理的比较复杂的计算。

2.DM:dataMart,数据集市,是数据仓库的子集,其中包含的主题少,历史时间短,数据量少,也可以称为部门级数据仓库。

3.ETL:数据抽取(extract),转换(transform),装载(load),其中也包含了数据清洗。它是构建数据仓库重要的一环。从数据源抽取数据,经过清洗过程(去掉坏数据,没用的数据,异常的数据),最终按预先定义好的数据仓库模型,将数据加载到数据仓库中去。

4.元数据:关于数据的数据。意思就是描述数据信息的数据,比如这里有一个学生的考试成绩的数据,那么元数据就是这个学生信息的数据。

5.ODS:operation data store,操作性数据存储。它是建立在数据准备区域和数据仓库之间的一个部件,支持一些同时关联到历史数据和实时数据分析的数据暂时存储的区域。

6.数据仓库:datawarehouse,数据仓库。它有四个要素:面向主题;集成;与时间相关;不可修改的数据集合;面向主题意思是所有数据都有,需要什么类型的拿什么。集成意思是不同类型的数据统一联系放在一起,集成数据。与时间相关的意思是反映历史数据的变化。不可修改的意思是放进去的历史数据一般很少修改删除,做的最多的应该是查询的操作。


数据仓库的建立

BI分析是基石,良好的数据仓库设计。

    数据的两种形式:操作数据和分析数据:企业中使用的数据可以分为两类:操作数据数据和分析数据。这两种数据都可以存储在DBMS中进行管理。他们的组织形式实际上源于并作用于两种系统:操作型系统和分析型系统。

    企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境。操作型系统根据其特点也称为联机事务处理(OLTP)其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一,存储操作数据,称为数据库。分析型系统也称联机分析处理(OLAP),一般把存储分析数据的数据库称为数据仓库。

     数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。

     由于数据库系统和数据仓库系统在硬件利用率上的差异,我们难于在同一台服务器上既进行优化操作型处理,又进行优化分析型处理,因此数据库系统和数据仓库系统在物理上应当由不同的服务器来运行。
原创粉丝点击