《数据挖掘概念与技术》读书笔记(一)

来源:互联网 发布:java程序员如何做兼职 编辑:程序博客网 时间:2024/05/27 14:13

之前看过经典的《数据挖掘导论》,然后又看了韩家炜的《数据挖掘概念与技术》这本数据挖掘入门书籍,对数据挖掘也有了一个初步的了解,特此写篇文章总结一下自己读这两本书后对数据挖掘的认识。

 

一. 什么是数据挖掘,数据挖掘的知识体系及应用范围

1. 定义:

又称数据中的知识发现,从大量的数据中挖掘有趣模式和知识的过程。

知识发现的过程:

  1). 数据清理: 除噪声和删除不一致数据

  2). 数据集成: 多种数据源的组合

  3). 数据选择: 取和分析与任务相关的数据

  4). 数据变换: 数据变换和统一成适合挖掘的形式

  5). 数据挖掘: 使用智能方法提取数据格式

  6). 模式评估: 识别代表知识的有趣模式

  7). 知识表示: 使用可视化和知识表示技术,向用户提供挖掘的知识

2. 为什么要进行数据挖掘

     未来将是大数据时代,IDC(国际数据公司)研究报告指出2012年全球信息资料量为2.8ZB(2的40次方GB),而在2020年预计会达到40ZB,平均每人拥有5247GB的数据。庞大的数据量背后隐藏着巨大的潜在价值,人们手握巨量的数据却没有很好的手段去充分挖掘其中的价值,因此对数据挖掘的研究可以帮助我们将数据转化成知识。

 

3. 数据挖掘的知识体系

    数据挖掘作为一个应用驱动的领域,吸纳了许多应用领域的技术,包括:

统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。

 

数据挖掘的任务分类:

描述性任务: 刻画目标数据的一般性质

预测性任务: 归纳及做出预测

 

数据挖掘功能:

1). 数据特征化与数据区分

2). 频繁模式

3). 关联和相关性挖掘

4). 分类和回归

5). 聚类分析

6). 离群点分析

 

4. 数据挖掘应用领域

1. 金融数据分析

2. 零售与电信业: 例如分析零售数据有利于做出正确的决策;产品推荐;顾客保有及促销策略

3. 科学与工程数据挖掘

4. 网络数据挖掘: 社交网络用户行为分析,多媒体、文本和web数据分析

5. 信息检索: 搜索引擎、云计算、数据仓库

 

二. 认识数据

1. 属性总结:

标称属性:一些符号和事物的名称,如头发颜色和学历是描述人的属性。

二元属性:只有0、1两种状态

序数属性: 可能的值具有有意义的序,如教师职称

数值属性: 定量的,用实数值表示

 

2. 度量数据的相似性和相异性(即数据的邻近性)

非对称二元属性: Jaccard属性

数值属性:欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离

相似性评估:余弦相似性(用于比较文档)、Tanimoto系数

 

3. 数据预处理

1). 数据清理:填补缺失值、光滑噪声、识别离群点、纠正数据不一致性,通常是一个两步迭代过程,包括偏差检测盒数据变换

  处理缺失值:有忽略元组、人工填写、全局常量填充、     

             均值或中位数填充、同类均值或中位数填充、最可能值填充六种方法。

  噪声数据处理:分箱(考察近邻数据值,有箱均值、箱中位数、箱边界光滑方法)

                回归、离群点分析

2). 数据集成: 将来自多个数据源的数据整合成一致的数据存储

实体识别问题:模式集成和对象匹配。如在一个系统中discount用于订单,而在另一个系统中用于商品,集成不正确导致商品不正确打折

 

冗余和相关分析:

冗余指一个属性能由另一个或另一组属性导出,则这个属性是冗余的,可用相关分析检测到。

标称数据使用卡方检验,数值属性用相关系数和协方差

 

3). 数据规约:简化数据集的表示,包括维规约和数值规约

维规约:数据压缩技术(如小波变换和主成分分析), 属性子集选择,属性构造

数值规约: 参数模型(如回归),非参数模型(聚类、抽样、直方图)

 

4). 数据变换:将数据变换成适于挖掘的形式

变换策略包括: 光滑,属性构造,聚集,规范化,离散化,由标称数据产生概念分层。

 

 

《数据挖掘概念与技术》读书笔记(二)

三. 数据仓库与数据立方体技术

1. 数据仓库基本概念:

   1). 数据仓库定义:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。

   2). 数据库与数据仓库的区别:

      主要区别在于数据库是面向事务操作处理的,而数据仓库是面向分析信息处理的。

      数据库的用户为数据库专业人员、处理日常操作,而数据仓库为主管和分析人员,为决策提供支持。

   3). 数据仓库体系架构: 底层数据,中间层OLAP服务器,顶层前端工具

   4). 数据仓库模型:

         企业仓库:提供企业范围内的数据集成,企业范围的

         数据集市:包含企业范围数据的一个子集,对特定的用户群,咸鱼选定的主题,部门范围的。

         虚拟仓库: 操作数据库上视图的集合

2. 数据仓库建模

数据立方体: 允许以多维数据建模和观察,由维(属性)和事实(数值)定义

方体:给定诸维的每个可能的自己产生一个方体,结果形成方体的格,方体的格称作数据立方体。

 

多维模型:

         星形模式:包括一个大的中心表(事实表)、一组小的附属表(维表),维表围绕中心表

         雪花模式:是星形的表变种,某些维表被规范化费解到附加的表中,用于数据集市

         事实星座:多个事实表分享维表,用于复杂的应用,常用于企业数据仓库

 

3. 典型OLAP操作:

上卷:沿一个维的概念分层向上攀升或通过维规约进行聚集,如由city上卷到country

下钻:沿维的概念分层向下或引入附加的维来实现,如由季度数据到更详细的月数据

切片:在立方体的一个维上进行选择,定义一个子立方体,如选择季度一的数据

切块:在立方体的两个或多个维上进行选择,定义子立方体, 如选择季度为一和商品类型            为计算机的数据

转轴:转动数据视角,或将3D立方变换成2D平面序列

 

物化:

完全物化(完全立方体):计算定义数据立方体的格中所有的方体,需要过多存储空间,导                致维灾难

部分物化:选择性计算子立方体

冰山立方体: 一个数据立方体,只存放其聚集值大于某个最小支持度阈值的立方体单元。

立方体外壳: 只预计算涉及少数维的方体,这些方体形成对应的数据立方体。

 

4. 数据立方体的计算方法:

1). 多路数组聚焦:

基本思想:使用多维数组作为基本数据结构,使用数组直接寻址,其中维值通过位置或对应数组位置的下标访问。可能产生稀疏数组结构,可以采用chunkID+ offset 作为单元寻址机制来压缩数组。

优点:比传统的基于关系记录的计算方法快

缺点:因为维数增长,计算的方体数指数增长,因此该方法仅对具有较少维的立方体有效;

      不能计算冰山立方体,因为该方法从基本方体开始计算,逐步向上泛化,因而不能利用先验剪枝,导致即时单元不满足冰山条件指定的最小支持度,也无法剪掉。

 

2).  BUC:

基本思想:以相反的次序观察方体的格,顶点方体在底部,而基本方体在顶部,因而实际上市自底向上的,BUC可以分担数据划分开销,在构造立方体是可以使用先验性质进行剪枝。

优点:可以计算冰山立方体,可以分担数据划分开销

缺点:易受维的次序和倾斜数据影响。理想地,应该先处理最有区分能力的为,维应当以基数递减序处理。

 

3).Star-Cubing:

基本思想:利用自底向上和自顶向下模式的计算模式。在全局计算次序上,使用自底向上,而它下面有一个基于自顶向下模式的子层,利用共享维的概念。这种集成允许算法在多个维上聚集,而仍然划分父母分组并剪裁不满足冰山条件的子女分组。

如果共享维上的聚集值不满足冰山条件,则沿共享维向下的所有单元也不满足冰山条件,这样的单元和它们所有的后代都可以剪枝。

优点:计算完全立方体,速度比BUC快,可以与MultiWay相媲美;计算冰山立方体速度比BUC快。

4). 外壳片段立方体:

冰山立方体的计算和存储开销虽然比完全立方体小,但是仍然很高,一个可能的解决方案是计算一个很薄的立方体外壳,但是这种立方体外壳不支持高维OLAP,它不支持在4维或更多维上的OLAP,并且它甚至不支持沿3个维下钻,因此取代计算立方体外壳可以只计算它的一部分或片段。

外壳片段立方体基本思想:给定一个高维数据集,把维划分成互不相交的维片段,把每个片段转换成倒排索引表示,构造立方体外壳片段,使用预计算立方体外壳片段,计算所需要的数据立方体的方体单元,这可以通过倒排索引上的集合交操作完成。

原创粉丝点击