数据仓库

来源:互联网 发布:js框架有哪些 编辑:程序博客网 时间:2024/06/07 18:52

  数据仓库:通常指数据库环境,而不是一件产品,提供数据挖掘功能。比如某公司的所有数据库在不同地区,要做决策,就要做etl,转入数据仓库,然后进行数据挖掘。

  数据仓库存储的都是结构化的数据,而现实有很多非结构化的数据需要处理,如视频等。

  特点:面向主题,集成,相对稳定,反应历史变化

  面向主题:看给谁看,就给出特定主题,建立很多维度,这些维度都是围绕一个特定的主题,如果需要的主题很多,就形成多主题

  数据集成:需要把各种数据库(关系/面向对象数据库/文档片段)集成起来,比如产品,要把国内外有无相关产品集成起来,所以说数据源是很多的,集成还有一个概念是统一格式,不一致的数据需要转换

  相对稳定,不可更新:只有两操作,load/delete

  反应时间:数据库是没有时间特性的,而数据仓库专门增加时间维

  数据挖掘需要数据,数据来源是数据仓库,数据挖掘才能提供决策支持,dw并不是dm唯一的数据源

  数据仓库例子:航空公司,主题:市场(生产),航班(生产),班期(载人,载货),决策支持:一段时间航空公司占有率,计划完成情况...比如西南地区出现负增长,需要得出原因,利用客户端查询全国各地区航空总周转量,和去年对比,去数据仓库服务器看,然后得出图表,然后发现在西南地区确实出现负增长(北京->西南),想看是货运出现问题还是客运,用数据仓库的下砖功能查,得出影响因素是客运,然后制表,然后看是西南地区的昆明出现问题还是重庆,发现是昆明,然后看为什么昆明出现问题,得出原因。

  数据挖掘在结构化数据仓库中很容易得出决策


  

0 0
原创粉丝点击