数据挖掘算法的分类

来源:互联网 发布:vscode 绿色波浪线 编辑:程序博客网 时间:2024/04/30 02:32

数据挖掘算法的分类

  算法是数据挖掘模型建立的核心,由于数据挖掘是一个交叉学科,因此其算法也集大成于一身,丰富多彩。

  可根据算法分析数据的方式、算法来自的学科、算法所得结果的类型、学习过程的类型等,对数据挖掘的算法进行分类。


1. 根据算法分析数据的方式划分

  一方面,数据挖掘能够通过OLAP分析和统计分析,实现对数据的多维度汇总,验证人们实现对数据所含信息的假设,实现验证驱动型数据分析;另一方面,数据挖掘也能够通过数据机器学习和可视化等,掘取出隐含在数据中的人们事先并不知道的规律,实现发现驱动型数据分析。

  根据算法分析数据的方式,可将数据挖掘算法划分为假设检验型算法和知识发现型算法

  • 假设检验型算法
      假设检验算法是一种从一般原理推出个别结论的验证型演绎方法。
      
  • 知识发现型算法
      知识发现型算法是一种从个别数据中归纳出一般结论的归纳分析方法

2. 根据算法来自的学科划分

  • 机器学习算法
  • 统计学习算法

      机器学习算法的核心是通过对数据集n维属性空间的搜索,找到数据属性特征的恰当概括。根本任务是通过对有限的系统输入输出的分析,估计输入输出额相关分析进行分类预测,或揭示系统的内在结构特征。
      
      一个简单的机器学习系统如图所示

Created with Raphaël 2.1.0输入发生器系统学习机

  机器学习算法较多地集中在模型搜索和参数优化方面。以参数优化为例,机器学习通常将损失函数看成误差与多维参数空间的曲面。经典学习就是不断在数据中寻找规律,反复调整和优化参数w ,使误差函数沿着曲面快速到达全局最小区域或局部最小区域的过程。

 经典统计学方法更加强调模型的先期假设和后期验证,更加关注不同问题,应采取怎样的模型形式,怎样的损失函数和误差函数以更好的满足分析目标和数据类型的要求。


3. 根据算法所得到的结果的类型划分

  • 直接型数据挖掘算法,分类和回归
  • 间接型数据挖掘算法,聚类分析和关联分析

      直接型数据挖掘是一种“黑匣子”式的数据分析方式。核心人物是根据已有数据,建立分类或回归模型,并通过模型实现对新数据对象的预测。这类分析方法重点关注模型的预测精度。

      间接型数据挖掘是一种“半透明”式的数据分析方式。核心人物是根据已有数据,建立数据的描述模型,并通过描述模型展开数据的内在结构特征,揭示数据中隐藏的规律和关系。不同于直接型数据挖掘算法,间接型数据挖掘算法中一般没有特定的目标变量,更关注数据内在联系和结构的展现程度。


4. 根据学习过程类型划分

  • 有指导(监督)的学习算法
  • 无指导(监督)的学习算法

      有指导的学习算法通常应用在分类和回归问题中,目标是实现对新数据的预测。这类算法要求数据中的输出值已知,输出就是一位“老师”,它式中知道着模型的建立和评价。
      
      无指导的学习算法通常应用在聚类分析和关联分析中,目标是揭示数据的内在关系和结构。由于这些关系和结构事先未知的,所以学习过程没有“老师”的参与。

0 0
原创粉丝点击