《数据挖掘概念与技术》读书笔记（一）

来源：互联网发布：java程序员如何做兼职编辑：程序博客网时间：2024/05/27 14:13

之前看过经典的《数据挖掘导论》，然后又看了韩家炜的《数据挖掘概念与技术》这本数据挖掘入门书籍，对数据挖掘也有了一个初步的了解，特此写篇文章总结一下自己读这两本书后对数据挖掘的认识。

一. 什么是数据挖掘，数据挖掘的知识体系及应用范围

1. 定义：

又称数据中的知识发现，从大量的数据中挖掘有趣模式和知识的过程。

知识发现的过程：

1). 数据清理：除噪声和删除不一致数据

2). 数据集成：多种数据源的组合

3). 数据选择：取和分析与任务相关的数据

4). 数据变换：数据变换和统一成适合挖掘的形式

5). 数据挖掘：使用智能方法提取数据格式

6). 模式评估：识别代表知识的有趣模式

7). 知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

2. 为什么要进行数据挖掘

未来将是大数据时代，IDC（国际数据公司）研究报告指出2012年全球信息资料量为2.8ZB（2的40次方GB）,而在2020年预计会达到40ZB，平均每人拥有5247GB的数据。庞大的数据量背后隐藏着巨大的潜在价值，人们手握巨量的数据却没有很好的手段去充分挖掘其中的价值，因此对数据挖掘的研究可以帮助我们将数据转化成知识。

3. 数据挖掘的知识体系

数据挖掘作为一个应用驱动的领域，吸纳了许多应用领域的技术，包括：

统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。

数据挖掘的任务分类：

描述性任务：刻画目标数据的一般性质

预测性任务：归纳及做出预测

数据挖掘功能：

1). 数据特征化与数据区分

2). 频繁模式

3). 关联和相关性挖掘

4). 分类和回归

5). 聚类分析

6). 离群点分析

4. 数据挖掘应用领域

1. 金融数据分析

2. 零售与电信业：例如分析零售数据有利于做出正确的决策；产品推荐；顾客保有及促销策略

3. 科学与工程数据挖掘

4. 网络数据挖掘：社交网络用户行为分析，多媒体、文本和web数据分析

5. 信息检索：搜索引擎、云计算、数据仓库

二. 认识数据

1. 属性总结：

标称属性：一些符号和事物的名称，如头发颜色和学历是描述人的属性。

二元属性：只有0、1两种状态

序数属性：可能的值具有有意义的序，如教师职称

数值属性：定量的，用实数值表示

2. 度量数据的相似性和相异性（即数据的邻近性）

非对称二元属性： Jaccard属性

数值属性：欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离

相似性评估：余弦相似性（用于比较文档）、Tanimoto系数

3. 数据预处理

1). 数据清理：填补缺失值、光滑噪声、识别离群点、纠正数据不一致性，通常是一个两步迭代过程，包括偏差检测盒数据变换

处理缺失值：有忽略元组、人工填写、全局常量填充、

均值或中位数填充、同类均值或中位数填充、最可能值填充六种方法。

噪声数据处理：分箱（考察近邻数据值，有箱均值、箱中位数、箱边界光滑方法）

回归、离群点分析

2). 数据集成：将来自多个数据源的数据整合成一致的数据存储

实体识别问题：模式集成和对象匹配。如在一个系统中discount用于订单，而在另一个系统中用于商品，集成不正确导致商品不正确打折

冗余和相关分析：

冗余指一个属性能由另一个或另一组属性导出，则这个属性是冗余的，可用相关分析检测到。

标称数据使用卡方检验，数值属性用相关系数和协方差

3). 数据规约：简化数据集的表示，包括维规约和数值规约

维规约：数据压缩技术（如小波变换和主成分分析），属性子集选择，属性构造

数值规约：参数模型（如回归），非参数模型（聚类、抽样、直方图）

4). 数据变换：将数据变换成适于挖掘的形式

变换策略包括：光滑，属性构造，聚集，规范化，离散化，由标称数据产生概念分层。

《数据挖掘概念与技术》读书笔记（二）

三. 数据仓库与数据立方体技术

1. 数据仓库基本概念：

1). 数据仓库定义：一个面向主题的、集成的、时变的、非易失的数据集合，支持管理者的决策过程。

2). 数据库与数据仓库的区别：

主要区别在于数据库是面向事务操作处理的，而数据仓库是面向分析信息处理的。

数据库的用户为数据库专业人员、处理日常操作，而数据仓库为主管和分析人员，为决策提供支持。

3). 数据仓库体系架构：底层数据，中间层OLAP服务器，顶层前端工具

4). 数据仓库模型：

企业仓库：提供企业范围内的数据集成，企业范围的

数据集市：包含企业范围数据的一个子集，对特定的用户群，咸鱼选定的主题，部门范围的。

虚拟仓库：操作数据库上视图的集合

2. 数据仓库建模

数据立方体：允许以多维数据建模和观察，由维（属性）和事实（数值）定义

方体：给定诸维的每个可能的自己产生一个方体，结果形成方体的格，方体的格称作数据立方体。

多维模型：

星形模式：包括一个大的中心表（事实表）、一组小的附属表（维表），维表围绕中心表

雪花模式：是星形的表变种，某些维表被规范化费解到附加的表中，用于数据集市

事实星座：多个事实表分享维表，用于复杂的应用，常用于企业数据仓库

3. 典型OLAP操作：

上卷：沿一个维的概念分层向上攀升或通过维规约进行聚集，如由city上卷到country

下钻：沿维的概念分层向下或引入附加的维来实现，如由季度数据到更详细的月数据

切片：在立方体的一个维上进行选择，定义一个子立方体，如选择季度一的数据

切块：在立方体的两个或多个维上进行选择，定义子立方体，如选择季度为一和商品类型为计算机的数据

转轴：转动数据视角，或将3D立方变换成2D平面序列

物化：

完全物化（完全立方体）：计算定义数据立方体的格中所有的方体，需要过多存储空间，导致维灾难

部分物化：选择性计算子立方体

冰山立方体：一个数据立方体，只存放其聚集值大于某个最小支持度阈值的立方体单元。

立方体外壳：只预计算涉及少数维的方体，这些方体形成对应的数据立方体。

4. 数据立方体的计算方法：

1). 多路数组聚焦：

基本思想：使用多维数组作为基本数据结构，使用数组直接寻址，其中维值通过位置或对应数组位置的下标访问。可能产生稀疏数组结构，可以采用chunkID+ offset 作为单元寻址机制来压缩数组。

优点：比传统的基于关系记录的计算方法快

缺点：因为维数增长，计算的方体数指数增长，因此该方法仅对具有较少维的立方体有效；

不能计算冰山立方体，因为该方法从基本方体开始计算，逐步向上泛化，因而不能利用先验剪枝，导致即时单元不满足冰山条件指定的最小支持度，也无法剪掉。

2). BUC：

基本思想：以相反的次序观察方体的格，顶点方体在底部，而基本方体在顶部，因而实际上市自底向上的，BUC可以分担数据划分开销，在构造立方体是可以使用先验性质进行剪枝。

优点：可以计算冰山立方体，可以分担数据划分开销

缺点：易受维的次序和倾斜数据影响。理想地，应该先处理最有区分能力的为，维应当以基数递减序处理。

3).Star-Cubing：

基本思想：利用自底向上和自顶向下模式的计算模式。在全局计算次序上，使用自底向上，而它下面有一个基于自顶向下模式的子层，利用共享维的概念。这种集成允许算法在多个维上聚集，而仍然划分父母分组并剪裁不满足冰山条件的子女分组。

如果共享维上的聚集值不满足冰山条件，则沿共享维向下的所有单元也不满足冰山条件，这样的单元和它们所有的后代都可以剪枝。

优点：计算完全立方体，速度比BUC快，可以与MultiWay相媲美；计算冰山立方体速度比BUC快。

4). 外壳片段立方体：

冰山立方体的计算和存储开销虽然比完全立方体小，但是仍然很高，一个可能的解决方案是计算一个很薄的立方体外壳，但是这种立方体外壳不支持高维OLAP，它不支持在4维或更多维上的OLAP，并且它甚至不支持沿3个维下钻，因此取代计算立方体外壳可以只计算它的一部分或片段。

外壳片段立方体基本思想：给定一个高维数据集，把维划分成互不相交的维片段，把每个片段转换成倒排索引表示，构造立方体外壳片段，使用预计算立方体外壳片段，计算所需要的数据立方体的方体单元，这可以通过倒排索引上的集合交操作完成。