数据挖掘方法论crisp-DM

来源:互联网 发布:mac升级系统好吗 编辑:程序博客网 时间:2024/06/05 16:43

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan2005年合著的论文trands in data mining and knowledge discovery )

CRISP-DM数据挖掘方法论用层次过程模型描述,包括四个抽象(从一般到具体)层次构成的任务集合:阶段(phase)、一般任务(generic task)、具体任务(specialized task)和过程实例(process instance)。每个阶段由若干一般任务组成,每个一般任务又实施若干具体任务,每个具体任务由若干过程实例来完成。

CRISP-DM过程描述

  CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.

1: business understanding: 即商业理解. 这个最开始的阶段关注从商业角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划.

一般任务:确定商业目标、评析环境、确定数据挖掘目标、制定项目计划。

2.data understanding: 数据的理解.数据理解阶段由最初数据收集开始,然后接着是一系列活动,这些活动的目的是:熟悉数据,甄别数据质量问题、发现对数据的真知灼见、或者探索出令人感兴趣的数据子集并形成对隐藏信息的假设。

一般任务:收集原始数据、描述数据、探索数据、检验数据质量。

3: data preperation: 数据的准备.数据准备阶段包括了从最初原始数据构建最终数据集(作为建模工具的输入)的全部活动。数据准备很可能被执行多次并且不以任何既定的秩序进行。其任务既包括表、记录和属性的选择,也包括为建模工作准备数据的转换和清洗。

一般任务:选择数据、清洗数据、构造数据、整合数据、格式化数据。

4:modeling:模型.在项目的这个阶段,会选择和使用各种建模技术,并对其参数进行调优。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这通常需要重新返回到数据准备阶段。

一般任务:选择建模技术、生成测试计划、构建模型、评估模型(参数设置等技术角度)。

5:evaluation: 评价。在项目的这个阶段,你已经构建了一个(或多个)从数据分析角度看似高质量的模型。不过在最终部署模型之前,还要对模型进行较为全面的评价,重审构建模型的那些步骤以确认它能正确达到商业目的。另一个关键目标是判断是否有些重要的商业问题还没有被充分考虑。这个阶段的最后,还应该确定使用数据挖掘结果得到的决策是什么

一般任务:评价结果、重审过程、确定下一步。

6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)

一般任务:规划部署、规划监控与维护、产生最终报告、回顾项目。

 

SEMMA过程描述:

Sample──数据取样

Explore──数据特征探索、分析和予处理

Modify──问题明确化、数据调整和技术选择

Model──模型的研发、知识的发现

Assess──模型和知识的综合解释和评价

 

CRISP-DMSEMMA的区别:

CRISP-DM是从一个数据挖掘项目执行的角度谈方法论,SEMMA 则是从对具体某个数据集的一次探测和挖掘的角度来谈方法论, CRISP- DM的考虑的范围比SEMMA 要大。CRISP-DM关注商业目标、数据的获取和管理, 以及模型在商业背景下的有效性CRISP- DM认为数据挖掘是由商业目标驱动的,同时重视数据的获取、净化和管理; SEMMA 不否认商业目标,但更强调数据挖掘是一个探索的过程, 在最终确定模式和模型前, 要经过充分的探索和比较。在数据挖掘的各个阶段中, 数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态, 这才能保证数据挖掘有效的进行。SAS在同类产品中这一方面尤其强大。SEMMA 是一个特别贴近算法的视角, SAS 将不同的数据挖掘算法放到了这个挖掘过程的不同阶段( Explore, Modify,Model) , CRISP- DM是一个不依赖于具体算法的过程框架,CRISP-DM将所有算法放到过程的相同位置( Phase) SEMMA的体现了不同算法在项目过程的不同阶段有不同的重要性。SAS 在技术上的另个特征是强调取样( Sampling)SEMMA 强调了SAS 本身产品的优势, SEMMA 没有如同CRISP-DM一样详细而规范的文本, 作为项目管理的需要来看CRISP-DM更适用一些。由于CRISP- DM在阶段间可以反馈,整个流程又是循环的, 在逻辑上CRISP- DM是可以实现SEMMA, 它们互不矛盾。但由于强调的重点不同, 在实践上则会有明显的区别。

KDD

SEMMA

CRISP-DM

Pre KDD

--------------

Business understanding

selection

Sample

Data understanding

Pre processing

explore

Transformation

modify

Data preparation

Data mining

model

modeling

Interpretation/evaluation

assessment

evaluation

Post KDD

--------------

deployment

 

参考文献:

www.crisp-dm.org

原创粉丝点击