数据仓库学习(1)

来源:互联网 发布:动力系数静力计算法 编辑:程序博客网 时间:2024/04/29 10:32

数据仓库本来从大学的时候我就没有接触过,数据库,数据结构这两门课程有基础,对于数据仓库不是太了解,能够开始接触到数据仓库,最直接的原因就是找工作,我面试京东金融数据仓库的岗位,结果全部的问题全都是关于Hive,大数据背景下,数据仓库的解决方案


虽然最后面试失败了,但是我开始对数据仓库感兴趣,数据仓库到底是什么,为什么需要数据仓库,数据仓库到底是怎么建立的,有什么功能等等,这些都困扰着我,很多公司建立数据仓库的原因很简单,就是为了决策,数据仓库为公司的决策提供数据支持和分析。现在随着大数据平台的兴起,Hadoop大数据框架的流行,更重要的原因是数据真的变得越来越大了,原有的数据仓库方法不能够继续使用了,所以现在大的公司都在开始建立数据仓库


数据仓库简单的理解就是存放数据的仓库,既然是仓库,首先要得到数据,这些的数据来源很多,就比如说一个电子商务网站,基本上各个部门都有自己的数据,数据仓库就是要把这些数据存入到数据仓库中,数据仓库不是简单的同步各种数据到数据仓库,数据仓库主要的目的是存储历史记录,这些记录很少会有变动。其次,就是得到数据后,就要想办法放入到数据仓库中,其中最重要的就是选择粒度,粒度太大的话,丢失了细节,当以后查询的时候,无法查询到结果,但是需要的空间少,而粒度太小的话,空间就会非常大,所以开始的时候预估不同粒度的存储需要的空间,也可以建立双层的粒度的数据仓库。


这篇文章不是为了介绍太多的数据仓库,主要介绍我现在对数据仓库的理解,数据仓库,多维度建模,面向主题,集成。而Hive现在是大数据平台下数据仓库的解决方案,底层用HDFS存储,同时使用MapReduce进行处理,同时只是HiveSQL查询,简化了操作,可以通过简单的SQL语句来生成Hadoop Job来执行程序,方便使用。


数据仓库还有一个很重要的概念,就是元数据,有技术元数据和业务元数据,很好理解,技术元数据是面向技术人员的,业务元数据是面向业务人员的。元数据对于数据仓库是非常重要的,因为数据里非常的大,所以需要通过元数据快速的了解和查找数据。同时元数据的存在对于管理数据仓库非常有帮助


数据仓库建立的的原因也很简单,就是当一个公司部门很多的时候,每个部门都有自己的数据库,都有自己单独的系统,都会产生自己的数据,当公司要做某项决定的时候,有时会发现两个部门通过数据分析得到的结果完全相反,还有当需要某些数据的时候,由于数据分布到各个部门,为了完成某项工作而去整理不同的数据,当需要下个决策的时候,又要去整理,每次的成本很高呢,还有如果需要以前的数据,有时会发现没有那个时候的数据,所以公司迫切需要建立一个统一的数据源,这个数据源就是数据仓库。通过将操作性数据库不断的备份来保证数据有完整性



0 0
原创粉丝点击