数据挖掘概念与技术课后笔记

来源：互联网发布：什么是好的相声知乎编辑：程序博客网时间：2024/04/30 21:23

数据挖掘概念与技术一

数据爆炸：自动数据收集工具和成熟的数据库技术使大量的数据被收集，储存在数据库、数据仓库或其他信息库中以待分析。

数据挖掘:从大量的数据中挖掘令人感兴趣的、有用的、隐含的、先去未知的和可能有用的模式或知识。
数据挖掘应用：数据分析和决策支持。
市场分析和管理、风险分析和管理欺骗检测和异常模式的监测（孤立点）、文本挖掘和WEB挖掘、流数据挖掘、DNA和生物数据分析。
数据库中的知识挖掘（KDD）：数据库（数据清理和数据集成）-->数据仓库（任务相关数据）-->数据挖掘-->模式评估-->Knolwledge
知识挖掘的步骤：
1：了解应用领域（相关的知识好应用的目标）
2：创建目标数据集：选择数据
3：数据清理和预处理数
4：数据缩减和预处理
5：选择数据挖掘功能：数据总结，分类，回归分析，关联规则，聚类分析等。
6：选择数据挖掘的算法
7：据挖掘：寻找感兴趣的模式
8：模式评估和知识表达
9：运用发现的知识
商业智能：数据源--预处理--数据仓库--数据统计分析查询和报告--数据挖掘（信息发现）--数据表示（可视化）--决策支持
数据挖掘的数据来源：关系数据库、数据仓库、事务数据库、高级数据库系统和信息库（空间数据库【地图矢量存储】、时间数据库和时间序列数据库【存放包含时间相关属性的时间】、流数据【连续的、有序的、变化的、快速的、大量的数据输入的数据<网络监控、网页点击流、股票市场><存储在内存上，非流媒体是存储在本地磁盘上>】、多媒体数据库（实现计算机管理庞大的多媒体数据<图形、图像、声音、视频>，二进制大对象（将多媒体数据看成二进制））、面向对象的数据库和对象-关系数据库（数据以对象的形式存储）、异种数据库（历史数据库存储方式不同，数据表达方式不同，数据共享：数据库转换，实现数据的透明访问<用抽象层屏蔽掉各个数据的不同>）和历史数据库LEGACY（WEB SERVICE技术有利于历史数据库数据的重新利用）、文本数据库<存储的是对对象的文字性描述，分为无结构（大部分的文本资料和网页）、半结构（XML树型结构）和结构类型(图书馆数据)>和万维网）

数据挖掘的方法：
1：概念/类描述：特征化和区分。
2：关联分析
3：分类和预测
4：聚类分析
5：孤立点分析
6：趋势和演变分析
7：其他定向模型或统计分析
模式兴趣度的度量：易被人理解、在某种程度上对于新的或测试的数据是有效的、具有潜在效用、新颖的、符合用户确信的假设。
客观度量：置信度、支持度。
主观度量：基于用户对数据的判断。
数据仓库是一个面向主题的、集成的、随时间而变化的、不易丢失（数据的初始转载和数据访问读操作，不需要事务处理、恢复和并发控制等机制，数据仓库的数据来于操作数据库，但却是在物理上分离保存的）的数据集合，支持管理部门的决策过程。
OLTP；在线事务处理（日常操作：购买）；面向顾客；数据类容是当前的、详细的数据；数据库设计：E-R（事体-联系模型）和面向应用的数据库设计；视图：当前的、企业内部的数据；事务操作；
OLAP；在线联机分析处理（数据分析和决策）；面向市场；历史的、汇总的数据；数据库设计：星型/雪花模型和面向主题的数据库设计；经过演化的、集成的数据；只读的复杂的查询。
数据立方体允许多维数据建模和观察，由维（关于一个组织想要记录的视角或观点）和事实定义。维表：每一个维都有一个表与之相关联。
事实表：事实（数值度量）的名称或度量以及每个相关维表的关键词。
度量的聚集函数：
1：分布的：将函数用于N个聚集值得到的结果和将函数用于所有数据得到的结果一样（即将数据分成n份分别计算得到的平均值与直接计算所有数据的值一样）count()sum()min()max()
2:代数的，函数可以由一个带m个参数的代数函数计算，每个参数值都有一个分布式聚集函数求得。
3：整体的(holistic)：不能分成多份计算。median(),mode(),rank();
概念分层：location
多维数据模型上的OLAP操作：上卷，下钻，切片和切片，转轴

数据仓库的体系结构：

数据仓库的设计：需求分析-->一个商务分析框架
数据仓库设计的视图：
1：自顶向下视图（允许我们选择数据仓库所需的相关信息）
2：数据源视图(揭示被操作数据库系统所捕获、存储和管理的信息)
3：数据仓库视图（由事实表和维表组成）
4：商务查询视图（从最终用户的角度透视数据仓库的数据）
数据仓库的数据过程：
自顶向下（用户需求明确，数据仓库技术成熟）（由总体设计和规划开始<成熟>）、自底向上法（由实验和原型开始<快速>）或者2者混合
从软件过程的观点
瀑布式：在进行下一步前，每一步都进行结构化和系统的分析。
螺旋式：功能渐增的系统的快速产生，相继版本之间间隔很短。
典型的数据仓库实际过程：
选取待建模的商务过程
选取商务过程的粒度
选取用于每个事实表记录的维
选取将安放在事实表的度量
数据仓库架构：
数据源-->数据仓库服务器-->OLAP服务器-->前端工具
数据仓库模型：企业仓库，数据集市，虚拟仓库（操作数据可库上的一系列的视图，只有一些可能的汇总视图被物化）。
数据仓库的开发：递增进化的方式
定义高层企业数据模型-->并行的实现数据集市和企业数据仓库-->构建分布式的数据集市-->构造一个多层的数据仓库
OLAP服务器：关系（R）OLAP服务器，多维OLAP服务器（M）（基于数组的多维存储引擎《稀疏矩阵技术》，能对与预计算的汇总数据快速索引），混合OLAP服务器(H),特殊的SQL服务器（建立在星型和雪花模型上支持SQL查询）
数据结构中的数据小，所以我们假设数据都在内存上的，然而数据挖掘中的数据热太大，所以只能对数据分块装入内存。
多路数组聚集方法：将数据分块，压缩的稀疏数组寻址，通过访问立方体单元，计算聚集，可以优化访问单元组的次序，使得每个单元被访问的次数最小化，从而减少内存访问和磁盘i/o的开销。
立方体每一块的扫描顺序：由每维的占用的内存数量进行比较可得。
索引OLAP数据：位图索引
1：在某一列上索引
2：列中的每个值都对应一个位向量：位操作是快速的。
3：位向量的长度表示该列的值的个数。
4：对值得基数比较大的域不合适。
搜索列中值就用位向量与表中的位向量相与，得出的结果为1就是所有该值。
连接索引：传统的索引每次映射到一系列具有该值的行是一个昂贵的操作（每次都要比较值同不同）
OLAP查询的有效处理：（即选择合适的方体进行物化）
确定哪些操作应当在可利用的方体上执行。
确定相关操作应当使用哪些物化的方体。
找寻MOLAP中可以利用的索引结构以及压缩的或者稠密的数组结构。
数据字典：表的结构，表的字段，属性，类型等。（数据的数据）
元数据：定义数据仓库对象的数据。
1：数据仓库结构的描述。
2：操作元数据（包括数据血统、数据类别，以及监视信息）
3：汇总用的算法
4：由操作环境到数据仓库的映射
5：关于系统性能的数据。
6：商务元数据。
元数据与数据一起构成数据仓库中的数据模型，元数据所描述的更多的是这个模型的结构方面的信息。
用途：作目录,作数据仓库和操作性数据库之间进行数据转换时的映射标准，用于指导当前细节数据和稍加综合的数据之间的汇总算法。
数据仓库后端工具和使用程序；数据提取，数据清理，数据变换，装载，刷新。

假定驱动的探索：用户根据他的直接和假定，视图去识别数据中的列外或者异常。

缺点：探索空间可能很大，高层次的聚集可能掩盖低层次的异常，用户面对数据量很大。
发现驱动的探索：根据预计算的度量值指出数据的异常，在所有的聚集级指导用户的数据分析过程。
用作异常指示符的度量：
selfexp:相对于同一聚集层的其他单元的奇异程度。
inexp:下钻处理时，其中某处的奇异程度
Pathexp：由该单元的每条下钻路径的奇异程度。

数据仓库的应用：信息处理（支持查询和基本的统计分析，并使用交叉表、表、图标和图进行报表处理），分析处理（进行多维数据分析支持基本的OLAP操作），数据挖掘。

从联机分析处理到联机分析挖掘：数据仓库有高质量的数据，围绕数据仓库的信息处理结构，基于OLAP的探测式数据分析，数据挖掘功能的联机选择。
OLAM联机分析挖掘引擎。
数据预处理：
数据：不完整的、含噪声的（错误和孤立点）、不一致的（各个数据源在编码或者命名上存在差异）。
高质量的数据决定高质量的挖掘结果。
数据质量的多维度量：精确度、完整度、一致性、合乎时机（不能用过时的数据来预测以后）、可信度、附加价值、可访问性。
数据预处理的主要任务：数据清理，数据集成，数据变换（规范化和聚集【汇总】），数据规约（得到数据集的压缩表示，他小得多，但可以得到相同或相近的结果），数据离散化（数据规约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要）。

数据清理：

空缺值：经过推断而补上。1：忽略元组（当每个属性缺少值得百分比变化很大，效果很差）
2使用一个全局变量填充空缺值（UNKNOWN或-无穷）。
3使用属性的平均值，与给定元组属同一类的所有样本的平均值（将顾客分为优质，普通等，将同为优质顾客的拍平均值填）
4使用最可能的值：使用Bayesian公式或判定树这样的基于推断的方法。
噪声数据：
噪声：一个测量变量中的数据错误或偏差
其他需要数据清理的数据问题：重复记录，不完整的数据，不一致的数据。
处理噪声数据：分箱（用箱均值或边界平均值或中值光滑（即代替箱中的数据）），聚类（将数据划分为类，监测并去除孤立点），计算机和人工检查结合（计算机检查可疑数据，然后人工判断），回归（通过回归函数平滑数据）。

数据集成：数据集成；模式集成（不同数据源中元数据，实体识别问题：匹配来自不同数据源的现实世界的同一实体【人工干预，元信息】）；检测并解决数据值的冲突（对现实世界中的同一实体，来自不同的数据源的属性值可能不同，不同的数据表示，不同的度量等等）。

数据冗余：有些冗余恶意被相关分析检测到，仔细将多个数据源中的数据集成起来。P(62)
数据变化：平滑，聚集，数据概化，规范化（最小-最大规范化，z-score规范化P75，小树定标规范化），属性构造。
数据规约策略：数据立方体聚集（数据立方体越高层数据越少），维规约（删除不相关的和冗余的维），数据压缩（使用编码机制压缩），数值规约（用替代的较小的数据表示替换或估计数据【参数模型】），离散化和概念分层产生。
用于数据规约的时间不应该超过在规约后数据挖掘节省的时间。
维规约：删除不相干的属性或减少数据量
属性最小子集选择：找出最小属性集，使得数据类的概念分布尽可能的接近使所有属性的原分布。减少出现在发现模型上的属性的数目，使得模型更易于理解。
启发式方法（探索性的方法）：逐步向前选择，逐步向后删除，向前选择和向后删除相结合，判定归纳树（非叶节点表示判定条件，叶节点表示类别，所有出现在树上的属性都是相关的属性）。
数据压缩：有损压缩，无损压缩。字符串压缩通常为无损。
音频和视频压缩通常是有损压缩，压缩精度可以递进选择，优惠可以在不解压整体数据的情况下，重构某个片段。
有损压缩：小波变换和主要成分分析。
数值规约：
通过选择替代、较小的数据表示形式来减少数据量。
有参方法：使用一个参数模型估计数据，最后只要存储参数就行。线性回归方法，多元回归，对数线性模型。
无参方法：直方图（将某属性的数据划分为不相交的子集，或桶，桶中放置该值得出现频率），聚类（数据可以分层聚类，并被存储在多层索引树中），选样（回放，不回放，聚类选样，分层选样）【声音选样：1秒2000次，采样8000个值，一个周期用4个值表示，电话就是8k的采样】。
离散化与概念分层生成：
数据数值的离散化和概念分层生成：分箱（递归的应用于每一部分，产生多层结构），直方图（递归的应用于每一部分，可以自动产生多级概念分层），聚类分析（将数据划分成簇，没个簇形成同一个概念层上的一个节点，没个簇可再分成多个子簇，形成子节点），基于熵的离散化，通过自然划分分段（将数值区域划分为相对一致的、易于阅读的、看上去更加直观或自然的区间）（数据集中出现最大值和最小值得极端分布，采用顶层分段时，选用一个大部分的概率空间）。
分类数据（无序的离散数据）的概念分层生成：由用户或专家在模式级显式的说明属性的部分序；通过显示数据分组说明分层结构的一部分；说明属性集，但不说明他们的偏序，然后系统根据算法自动产生属性的序，构成有意义的概念分层；对只说明部分苏醒集的情况，则可根据数据库模式中的数据语义定义对属性的捆绑信息，来恢复相关的属性。
属性集的规格：根据在给定的属性集中，每个属性所包含的不同值得个数，可以自动生成概念分成；不同值个数最多的属性将放在概念分层的最底层。
数据挖掘原语包括：说明数据库的部分或者用户感兴趣的数据集；要挖掘的知识类型；用于指导挖掘的背景知识模式评估；兴趣度量、如何显示发现的知识。
数据挖掘原语用于用户和数据挖局系统通信，让用户能从不同的角度和深度审查和发现结果，并指导挖掘过程。
说明数据挖掘任务的原语：任务相关的数据；挖掘的知识类型；背景知识（概念分层，关联的确信度）；模式兴趣度量（简单性、确定性【置信度】、实用性【支持度】、新颖性【通过删除冗余模式来检测新颖性，即一个模式已经被另一个模式所蕴含】）；发现模式的可视化。
模式模板（即形式化表达）：又称元模式或元规则，用来指定所发现模式所必须匹配的条件，用于指导挖掘过程。
同时满足最小置信度和最小支持度的关联规则称为强关联规则。
数据挖掘分为描述性数据挖掘（以简要概要的方式描述数据，并提供数据的有趣的一般性质）和预测性挖掘（通过分析数据建立一个或一组模型，并试图预测新数据集的行为）
概念描述：为数据的特征化（提供给定数据集的简要汇总）和比较产生描述（当所描述的概念所指的是一类对象是，也称类描述）
区分：提供2个及其以上的数据集的比较描述。
概念描述和数据仓库的OLAP都跟数据概化密切相关，以简洁的形式在更一般的抽象层描述数据，允许数据在抽象层概化，以便于考察数据的一般行为。
概念描述：可以出来复杂的数据类型的属性及其聚集；一个更加自动化的过程。
OLAP：实际使用OLAP系统总，维和度量的数据类型都非常有限（非数值型的维和数值型的数据即非数值型的属性和数值型的数据），表现为一种简单的数据分析模型，一个由用户控制的过程。
数据概化就是讲数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。
数据概化的主要方法：数据立方体，面向属性的归纳方法。
面向属性的归纳AOI：
使用关系数据库查询收集任务相关的数据；
通过考察任务相关数据中每个属性的不同值得个数进行概化，方法是属性删除或者属性概化；
通过合并相等的，概化的广义元组，并累计他们对应的计数值进行聚集操作；
通过与用户交互，将广义关系以图表或规则等形式，提交给用户。
面向属性的归纳的步骤：
数据聚焦，获得初始工作关系（把DMQL跟任务相关的数据集映射到关系数据库的相应视图或表，这些表就是初始工作关系）
进行面向属性的归纳；1属性删除，属性概化
2属性概化控制：控制概化过程，确定有多少不同的值才算是有最大不同值得属性。（属性概化临界值控制，概化关系临界值控制）

0 0