数据挖掘学习笔记三

来源:互联网 发布:点对点传输软件 编辑:程序博客网 时间:2024/05/07 12:33

数据挖掘学习笔记三**

数据仓库模型设计及数据仓库建立

这里写图片描述

数据仓库系统的设计与数据库系统设计的区别

数据库系统设计 数据仓库系统设计 面向的处理类型 面向应用 应用需求 比较明确 系统设计的目标 事务处理的分析性,安全性,高效性 数据来源 业务操作员的输入 系统设计的方法 需求驱动

数据仓库设计分为两个部分

数据仓库模型设计

  • 概念模型设计

  • 逻辑模型设计

  • 物理模型设计

数据装载接口的设计

相关概念

数据模型是对现实世界的反映和抽象,它可以充分体现用户的业务需求,清楚地表达各个部门之间的相关性,有效地消除冗余数据。

  • 概念模型描述的是客观世界到主观世界的映射。
  • 逻辑模型描述的是主观世界到关系模型的映射。
  • 物理模型描述的是关系模型到物理实现的映射。

数据仓库的概念模型设计

两种方法:E-R模型面向对象的分析方法

ER模型:

这里写图片描述

E-R图

  • 长方形表示实体,即主题.
  • 椭园形表示主题的属性
  • 无向边:把主题与其属性连接起来.
  • 有向边:表示主题之间的联系.

实例:
这里写图片描述

面向对象的分析方法

这里写图片描述

是对某种类型事物的抽象,将这类事物所有的共同特征集中起来。如:学生类,教师类

类之间存在三种关系:继承,包容关联

这里写图片描述

数据仓库的逻辑模型设计

  • 1)分析主题、确定当前要装载的主题

  • 2)确定数据粒度的选择

  • 3)确定数据分割的策略

  • 4)增加导出字段

    导出数据是事先在原始数据的基础上进行总结或计算而生成的数据.
    这里写图片描述

  • 5)定义关系模式

    ​ 定义各主题的信息表,表之间依靠公共码联系.
    这里写图片描述

  • 6)定义记录系统

    指明数据仓库中关系表各字段来源于哪个业务DB.

这里写图片描述

数据仓库的物理模型设计

存储结构

  • 分布式存储方式

    ​ 采用多个节点分布的方式来存储数据.节点之间通过互连I/O来进行相互通信.

  • 集中式数据存储方式

    ​ 将现有的存储区域网或网络附加存储系统作为服务器的存储部分.每个节点通过交换机直接访问所有的数据而不需要经过其他节点.

索引策略

B-Tree索引、位图索引、广义索引、连接索引

数据存储策略

1.合并表:将多个表中相互关联的记录相邻存储.

这里写图片描述

2.建立数据序列:数据在磁盘上分布在不同数据盘块上,即物理盘块上,按照处理顺序放在一个或多个物理块上.

3.按列存储:一张表中同一列的数据相邻存储.

4.分割表的存储:把大表分割存储,提高访问效率.

数据仓库的建立过程

需求分析

需求的分析过程贯穿在整个设计过程.数据仓库建立在原有的运行系统之上,因此,要与原有系统项目负责人,部门管理人员,DSS分析员,技术人员交流.

需求定义文档的提纲

  • 1)绪论
  • 2)总体需求描述
  • 3)具体需求
  • 4)指标及维度
  • 5)其他需求
  • 6)用户期望
  • 7)用户参与
  • 8)综合实施计划

数据路线

  • 1.概念模型设计
  • 2.逻辑模型设计
  • 3.物理模型设计
  • 4.数据装载接口设计.

技术路线

  • 1.操作型基础构造:包括:人员, 流程, 培训和管理软件.
  • 2.物理基础构造

应用路线

  • OLAP模型设计
  • 数据挖掘模型设计
  • 信息传递

数据仓库部署

运行维护

提高数据仓库性能

  • 1)提高I/O性能.
  • 2)缩小查询范围
    • 划分粒度
    • 分割数据表
    • 建立索引
  • 3)采取并行优化技术
  • 4)选择适当的初始化参数
0 0
原创粉丝点击