数据挖掘的标准方法CRISP-DM

来源:互联网 发布:js ajax post data 编辑:程序博客网 时间:2024/05/18 00:38

.数据挖掘的起源

事实上,数据挖掘并不近几年才出现的技术只是近年来,随着传感器技术,和以RFID,NFC,3g,4g,WiFi,蓝牙,ZigBee等为代表的无线通讯技术的飞速发展,各行各业每分每秒都在源源不断产生着数据。几乎所有的人类行为,都可以在数据中找到或深或浅痕迹。因此,人们很自然的想到,通过数据了解自己,也通过数据了解对手,更通过数据了解环境和周围的人。兵法有云,"知己知彼,百战不殆。天时不如地利,地利不如人和"。而在当下,数据成了知己知彼知天知地知人的根据,而数据挖掘技术就是利器。随着大数据的逐渐崛起,数据挖掘的价值愈发凸显。它历经了以下几个具体的发展阶段。

第一阶段:电子邮件阶段

这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长。

第二阶段:信息发布阶段

1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。中小企业如何把握好从粗放型精准型营销时代的电子商务。

第三阶段: EC(ElectronicCommerce),即电子商务阶段

EC在美国也才刚刚开始,之所以把EC列为一个划时代的东西,是因为Internet的最终主要商业用途,就是电子商务。同时反过来也可以说,若干年后的商业信息,主要是通过Internet传递。Internet即将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促进电子商务发展的议案,其引起了全球首脑的关注,IBMHPSun等国际著名的信息技术厂商已经宣布1998年为电子商务年。

第四阶段:全程电子商务阶段

随着SaaSSoftware as a service)软件服务模式的出现,软件纷纷登陆互联网,延长了电子商务链条,形成了当下最新的全程电子商务概念模式。也因此形成了一门独立的学科——数据挖掘与客户关系管理硕士。

二.数据挖掘的标准方法

古人云"事无定法",意思是说,做成一件事,没有固定的方法。这是鼓励人们创新,试着采用新的方法来做事。这样的尝试常常可以产生出更加有效快捷的方法。可既然是尝试,不走弯路是不可能的。所以如果你急需进行数据挖掘,我就不建议你自己去摸索尝试了。毕竟有前车之鉴,咱们干起来更快捷,更高效一些,等用熟练了"定法",对它温故而知新,可能到达更高。

下面我们就来说一下"定法"–CRISP-DM。

CRISP-DM (cross-industry standard process for data mining),即为"跨行业数据挖掘标准流程"。此KDD过程模型于1999年欧盟机构联合起草。

它的流程如下图所示


它分为六个步骤:商业理解,数据理解,数据准备,建立模型,模型评估,发布模型。

每一步的具体做法如下:

1.商业理解

决定工作目的

评价数据挖掘的目的

状况评价

树立项目计划

 

2.数据理解

初步收集数据

数据探索

数据技术

检验数据质量

 

3.数据准备

数据设定

数据选择

数据清洗/生成/综合

适合的数据形式

 

4.建立模型(modeling)

建模方法选择

生成测试设计

生成模型

模型评价

 

5.模型评估

结果评价

过程再检验

后续阶段检验

 

6.发布模型(执行)

树立执行计划

树立调控/维持计划

编写最终报告书

项目再检验

 

这部分内容不够详尽,也正因为这样,不会对实施过程产生过多的限制,保持了初次尝试的极大自由度,算是一种有方向的探索吧!

原创粉丝点击