数据挖掘方法和步骤

来源:互联网 发布:淘宝店怎么添加音乐 编辑:程序博客网 时间:2024/06/05 03:44

针对数据挖掘过程中直接与数据相关的部分,SAS公司提出了SEMMA方法论,将数据挖掘的核心过程分为抽样(Sample)、探索(Explore)、修整(Modify)、建模(Model)、评估(Assess)几个阶段。

1.数据抽样

数据抽样就是从数据集中抽取具有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。

2.探索

使用可视化方法或主成分分析、因子分析、聚类等统计方法对数据进行探索性分析,发现未曾预料的趋势和异常情况,对数据形成初步理解,寻求进一步分析的思路。

3.修整

包括生成和转换变量、发现异常值、变量选择等。

4.建模

搜寻能够可靠地预测因变量的数据组合,具体而言是指采用哪些观测、使用哪些自变量能够可靠地预测因变量。

5.评估

评估模型的实用性、可靠性和效果。

6.数据理解和数据准备

在实际数据挖掘项目中,占用时间最多的不是建模阶段,而是数据理解和数据准备阶段,它们常常要占用整个项目80%以上的时间。经过数据理解和数据准备之后,我们希望得到建模数据集。

大量的时间用于从异构和杂乱无章的各种数据中构造建模数据集;在最极端情况下,大部分的时间都用于从各个数据源收集必要的数据。

0 0
原创粉丝点击